卷前导读:出版版结构说明与阅读路径¶
一、本书定位与贡献¶
本书面向大模型时代的数据工程问题,讨论数据从原始材料进入训练、评测、应用、平台治理和长期资产沉淀的完整过程。全书以中文主线为权威源版本,当前出版结构冻结为 14 篇、48 章、15 个项目、8 个附录(A–H);英文书稿作为翻译稿和对外提交预览稿维护,最终交付前仍需复核术语、贡献者元数据和出版社管理的元数据。
全书架构图。来源:本书自绘。该图以数据全生命周期为主线,将十四篇、四十八章、十五个项目和八个附录组织为基础、采集处理、横切能力、模型对齐、应用治理、安全合规、专项实践和项目交付等层级。
本书的核心贡献体现在四个方面。
第一,建立大模型数据工程的统一框架。书中不把预训练语料、SFT、偏好数据、多模态数据、RAG、Agent、DataOps 和合规治理视为分散专题,而是放入同一条数据生命周期中讨论。
第二,将数据工程从脚本经验推进到可交付方法。各章强调数据对象、schema、质量信号、图表来源、参考文献、版本记录和验收指标,使读者能够判断一项数据工作是否可复查、可复现、可维护。
第三,把开源模型配方与专项数据集案例纳入同一叙事。第十二篇提供专项数据集案例,第十三篇抽象开源模型数据配方,第十四篇以项目案例验证前文方法,形成从方法、证据到工程复盘的闭环。
第四,提供可用于课程、研究和工业项目的交付模板。附录中的工具、合规、成本和交付清单用于支持项目立项、实验复现、出版审查和团队协作。
二、目标读者¶
本书主要服务四类读者。
研究生、博士生和实验室成员可使用本书建立数据集构建、模型复现、论文实验和公开发布所需的数据工程能力。
数据工程师、算法工程师和平台团队可使用本书梳理从数据源、清洗、对齐、训练封装到 DataOps、评测回写和数据资产化的工程链路。
课程教师、助教和培训组织者可使用本书组织实验课、课程项目和团队训练营,并借助附录模板降低复现与评分的不确定性。
项目管理者、合规负责人和协作负责人可使用本书识别数据项目中的版本、权限、图表来源、引用证据、成本预算和交付风险。
三、全书组织逻辑¶
全书按照“数据原料 -> 训练信号 -> 应用系统 -> 平台治理 -> 专项验证 -> 配方抽象 -> 项目复盘”的顺序展开。
第一至第三篇构成基础层,讨论数据生命周期、基础设施、文本数据、多模态图像、视频、音频、OCR 和跨模态对齐。这一部分建立全书共同术语和质量框架。
第四至第六篇构成训练信号层,覆盖指令微调、偏好数据、问答数据、合成数据、蒸馏、推理链、工具使用和 Agent 交互数据。这一部分回答数据如何从原始材料转化为可训练的监督信号。
第七至第十一篇构成系统与治理层,覆盖 RAG、多模态检索、在线反馈、DataOps、版本追踪、数据产品、内部数据市场、Data Engineering Agent、隐私合规和联邦学习。这一部分将数据工程放入真实系统、组织协作和风险边界中讨论。
第十二篇是专项数据集与多模态数据工程验证层,按文本语料、图文候选池、视觉文档与表格、视觉推理、语音音频和推理轨迹展开,检验前文方法在具体数据对象中的适用性。
第十三篇是开源模型数据配方层,围绕预训练、后训练、RL/推理、VLM、T2I/T2V 等范式抽象长期可迁移的数据组织方法,而不是停留在单个热点模型的经验罗列。
第十四篇是项目案例研究层,十五个项目对应前十三篇的关键能力。项目章采用案例研究写法,重点呈现场景约束、架构决策、样本 schema、验收指标、成本风险、失败模式和复现资源。
附录 A–H 提供工具、合规、成本、工程化转换、调试、术语、DataGallery 开源生态和 MindSpore 简介等模板与说明,服务于出版交付、课程复现和团队项目管理。
四、建议阅读路径¶
面向研究和论文实验的读者,建议先读第一篇、第二篇或第三篇,再根据任务进入第四至第六篇;当项目需要公开数据集、基准或复现实验时,重点阅读第十二篇和附录。
面向工业平台和数据团队的读者,建议先读第一篇、第七篇、第八篇和第九篇,再补读第十篇、第十一篇和第十四篇中的平台类、合规类项目。
面向开源模型复现和训练配方的读者,建议从第十三篇建立配方坐标,再回读第四至第六篇,并结合第十四篇 P11-P15 完成案例对照。
面向课程和教学组织的读者,建议先读第一篇、第八篇、第十二篇、第十四篇和附录。该路径便于形成课程实验、评分标准、数据权限说明和成本预算。
面向项目管理和交付审查的读者,建议优先阅读第一篇、第八篇、第九篇、第十一篇、第十二篇和出版管理文件。这一路径更适合检查结构、权限、引用、图表、成本和交付边界。
五、图表、参考文献与配套资源¶
本书中的图表承担流程说明、结构对比、决策辅助和质量检查作用。出版交付时,每张图表均应具备编号、标题、正文首次引用、来源说明、alt text 和权限状态;生成式 AI 图片若无法确认可出版性,应改绘为人工示意图或代码生成图表。
参考文献用于支撑外部事实、方法来源、开源模型配方和工具选择。每章的参考文献应与正文论述直接相关,避免把参考文献作为泛化阅读清单堆叠。
配套资源包括项目代码、检查脚本、样本数据、运行说明、成本模板和交付清单。正文保留关键结构和短代码片段,长脚本、notebook、大文件和中间产物应放入配套仓库或附录说明。
六、版本说明与引用建议¶
本交付版以中文主线为准。引用本书时,建议同时记录语种、书稿版本、章节号、项目号和访问日期;引用图表、表格、附录模板或项目产物时,应补充文件位置和版本说明。
版本变化可分为三类:轻修订包括错字、病句和局部表述优化;中修订包括导航、引用、图表编号和章节元数据调整;重修订包括章节结构、项目数量、附录范围和大段内容重写。课程复现、论文写作和项目交付应优先引用结构冻结后的版本。
七、卷前小结¶
卷前导读的任务不是复述目录,而是说明本书为何以当前结构组织、不同读者如何进入、正文与项目如何互相支撑,以及出版交付时应怎样理解版本、图表、引用和配套资源。
全书的阅读重点应从“了解更多专题”转向“建立可交付的数据工程判断”。当读者能够用本书中的框架检查一个真实项目的数据来源、schema、质量信号、实验指标、合规边界和复现材料时,卷前导读即完成了其出版版入口功能。
