《大模型数据工程：架构、算法及项目实战》¶

全书目录概览¶

本书当前中文出版稿采用 2026 年冻结结构，正文覆盖 48 章、15 个端到端项目与 8 个附录（A–H）。为降低跨篇阅读门槛，本版在前置部分新增在线资源入口和统一的缩写表，并为每一篇补充了分册目录页。

分篇目录¶

第一篇：总论与基础设施¶

建立大模型数据工程的核心认知，说明数据生命周期、质量评估、平台栈和成本治理的基本框架。

第二篇：文本预训练数据工程¶

面向大规模文本语料，覆盖数据来源、采集版权、清洗去重、分词序列化、高效加载和质量闭环。

第三篇：多模态数据工程¶

处理图文、文档、视频、音频与跨模态对齐数据，关注样本结构、质量控制、标注增强和融合训练。

第四篇：指令微调与偏好数据¶

围绕模型对齐数据，展开 SFT 指令体系、偏好数据、奖励信号、标注平台与质量运营。

第五篇：合成数据工程¶

讲解从种子样本到合成数据工厂的流程，包括知识蒸馏、模型协作、质量控制和模型坍缩风险。

第六篇：推理与 Agent 数据工程¶

覆盖思维链、推理轨迹、Tool-Use、函数调用、Agent 记忆和多轮交互数据的构建与验证。

第七篇：应用级数据工程¶

面向 RAG 和在线知识系统，说明文档解析、视觉检索、多模态 RAG、在线反馈闭环与知识更新。

第八篇：数据运营与平台建设¶

从团队组织、版本管理、实验追踪和可观测性角度，构建可持续演进的数据平台能力。

第九篇：数据资产、数据产品与数据契约¶

第九篇补齐数据资产化、数据产品、价值评估和企业内部共享治理，使前文的数据流水线进一步沉淀为可发现、可复用、可审计的组织级资产。

第十篇：智能化数据工程与 Data Engineering Agent¶

第十篇讨论 Agentic Data Engineering，聚焦数据工程 Agent 如何参与采集、解析、清洗、标注、合成、评测、DataOps 与安全协同，并以 DataAgent 作为贯穿式工程参照，将抽象架构连接到可运行的数据工程 Agent 系统。

第十一篇：隐私合规与数据安全¶

第十一篇聚焦数据合规、隐私保护、联邦学习与安全边界，强调在工程流程中把法规要求、风险控制与可审计能力前置到数据生命周期。

第十二篇：专项数据集与多模态数据工程实践¶

第十二篇以文本语料、图文候选池、视觉文档与表格、视觉推理、语音音频和推理轨迹为主线，讨论专项数据集如何被定义、构建、评测、发布和复现。各章围绕任务定义、样本 schema、构建流水线、质量控制、评测协议和合规风险展开，并向后连接项目案例研究与开源模型数据配方。

第十三篇：开源大模型数据工程配方与范式¶

第十三篇聚焦开源大模型的数据配方、训练范式与工程化组织方式，覆盖预训练、后训练、推理强化学习、VLM、T2I/T2V 等关键方向。

第十四篇：项目实战¶

通过 15 个可运行项目案例，把采集、清洗、合成、RAG、Agent、DataOps、隐私保护、数据飞轮、开源模型复现、视频生成数据流水线与企业级语义问数助手串成端到端实践。