卷前导读：出版版结构说明与阅读路径¶

一、本书定位与贡献¶

本书面向大模型时代的数据工程问题，讨论数据从原始材料进入训练、评测、应用、平台治理和长期资产沉淀的完整过程。全书以中文主线为权威源版本，当前出版结构冻结为 14 篇、48 章、15 个项目、8 个附录（A–H）；英文书稿作为翻译稿和对外提交预览稿维护，最终交付前仍需复核术语、贡献者元数据和出版社管理的元数据。

全书架构图。来源：本书自绘。该图以数据全生命周期为主线，将十四篇、四十八章、十五个项目和八个附录组织为基础、采集处理、横切能力、模型对齐、应用治理、安全合规、专项实践和项目交付等层级。

本书的核心贡献体现在四个方面。

第一，建立大模型数据工程的统一框架。书中不把预训练语料、SFT、偏好数据、多模态数据、RAG、Agent、DataOps 和合规治理视为分散专题，而是放入同一条数据生命周期中讨论。

第二，将数据工程从脚本经验推进到可交付方法。各章强调数据对象、schema、质量信号、图表来源、参考文献、版本记录和验收指标，使读者能够判断一项数据工作是否可复查、可复现、可维护。

第三，把开源模型配方与专项数据集案例纳入同一叙事。第十二篇提供专项数据集案例，第十三篇抽象开源模型数据配方，第十四篇以项目案例验证前文方法，形成从方法、证据到工程复盘的闭环。

第四，提供可用于课程、研究和工业项目的交付模板。附录中的工具、合规、成本和交付清单用于支持项目立项、实验复现、出版审查和团队协作。

二、目标读者¶

本书主要服务四类读者。

研究生、博士生和实验室成员可使用本书建立数据集构建、模型复现、论文实验和公开发布所需的数据工程能力。

数据工程师、算法工程师和平台团队可使用本书梳理从数据源、清洗、对齐、训练封装到 DataOps、评测回写和数据资产化的工程链路。

课程教师、助教和培训组织者可使用本书组织实验课、课程项目和团队训练营，并借助附录模板降低复现与评分的不确定性。

项目管理者、合规负责人和协作负责人可使用本书识别数据项目中的版本、权限、图表来源、引用证据、成本预算和交付风险。

三、全书组织逻辑¶

全书按照“数据原料 -> 训练信号 -> 应用系统 -> 平台治理 -> 专项验证 -> 配方抽象 -> 项目复盘”的顺序展开。

第一至第三篇构成基础层，讨论数据生命周期、基础设施、文本数据、多模态图像、视频、音频、OCR 和跨模态对齐。这一部分建立全书共同术语和质量框架。

第四至第六篇构成训练信号层，覆盖指令微调、偏好数据、问答数据、合成数据、蒸馏、推理链、工具使用和 Agent 交互数据。这一部分回答数据如何从原始材料转化为可训练的监督信号。

第七至第十一篇构成系统与治理层，覆盖 RAG、多模态检索、在线反馈、DataOps、版本追踪、数据产品、内部数据市场、Data Engineering Agent、隐私合规和联邦学习。这一部分将数据工程放入真实系统、组织协作和风险边界中讨论。

第十二篇是专项数据集与多模态数据工程验证层，按文本语料、图文候选池、视觉文档与表格、视觉推理、语音音频和推理轨迹展开，检验前文方法在具体数据对象中的适用性。

第十三篇是开源模型数据配方层，围绕预训练、后训练、RL/推理、VLM、T2I/T2V 等范式抽象长期可迁移的数据组织方法，而不是停留在单个热点模型的经验罗列。

第十四篇是项目案例研究层，十五个项目对应前十三篇的关键能力。项目章采用案例研究写法，重点呈现场景约束、架构决策、样本 schema、验收指标、成本风险、失败模式和复现资源。

附录 A–H 提供工具、合规、成本、工程化转换、调试、术语、DataGallery 开源生态和 MindSpore 简介等模板与说明，服务于出版交付、课程复现和团队项目管理。

四、建议阅读路径¶

面向研究和论文实验的读者，建议先读第一篇、第二篇或第三篇，再根据任务进入第四至第六篇；当项目需要公开数据集、基准或复现实验时，重点阅读第十二篇和附录。

面向工业平台和数据团队的读者，建议先读第一篇、第七篇、第八篇和第九篇，再补读第十篇、第十一篇和第十四篇中的平台类、合规类项目。

面向开源模型复现和训练配方的读者，建议从第十三篇建立配方坐标，再回读第四至第六篇，并结合第十四篇 P11-P15 完成案例对照。

面向课程和教学组织的读者，建议先读第一篇、第八篇、第十二篇、第十四篇和附录。该路径便于形成课程实验、评分标准、数据权限说明和成本预算。

面向项目管理和交付审查的读者，建议优先阅读第一篇、第八篇、第九篇、第十一篇、第十二篇和出版管理文件。这一路径更适合检查结构、权限、引用、图表、成本和交付边界。

五、图表、参考文献与配套资源¶

本书中的图表承担流程说明、结构对比、决策辅助和质量检查作用。出版交付时，每张图表均应具备编号、标题、正文首次引用、来源说明、alt text 和权限状态；生成式 AI 图片若无法确认可出版性，应改绘为人工示意图或代码生成图表。

参考文献用于支撑外部事实、方法来源、开源模型配方和工具选择。每章的参考文献应与正文论述直接相关，避免把参考文献作为泛化阅读清单堆叠。

配套资源包括项目代码、检查脚本、样本数据、运行说明、成本模板和交付清单。正文保留关键结构和短代码片段，长脚本、notebook、大文件和中间产物应放入配套仓库或附录说明。

六、版本说明与引用建议¶

本交付版以中文主线为准。引用本书时，建议同时记录语种、书稿版本、章节号、项目号和访问日期；引用图表、表格、附录模板或项目产物时，应补充文件位置和版本说明。

版本变化可分为三类：轻修订包括错字、病句和局部表述优化；中修订包括导航、引用、图表编号和章节元数据调整；重修订包括章节结构、项目数量、附录范围和大段内容重写。课程复现、论文写作和项目交付应优先引用结构冻结后的版本。

七、卷前小结¶

卷前导读的任务不是复述目录，而是说明本书为何以当前结构组织、不同读者如何进入、正文与项目如何互相支撑，以及出版交付时应怎样理解版本、图表、引用和配套资源。

全书的阅读重点应从“了解更多专题”转向“建立可交付的数据工程判断”。当读者能够用本书中的框架检查一个真实项目的数据来源、schema、质量信号、实验指标、合规边界和复现材料时，卷前导读即完成了其出版版入口功能。