《大模型数据工程:架构、算法及项目实战》¶
全书目录概览¶
本书当前中文主线采用 2026 版结构,正文覆盖 28 章与 10 个端到端项目。英文版与日文版正在跟进翻译,当前以翻译状态页说明新版范围。
- 序言
- 第一篇:总论与基础设施
- 第二篇:文本预训练数据工程
- 第三篇:多模态数据工程
- 第四篇:指令微调与偏好数据
- 第五篇:合成数据工程
- 第六篇:推理与 Agent 数据工程
- 第七篇:应用级数据工程
- 第八篇:数据运营与平台建设
- 第九篇:隐私合规与数据安全
- 第十篇:项目实战
- 第十一篇:开源⼤模型数据⼯程实战
第一篇:总论与基础设施¶
建立大模型数据工程的核心认知,说明数据生命周期、质量评估、平台栈和成本治理的基本框架。
第二篇:文本预训练数据工程¶
面向大规模文本语料,覆盖数据来源、采集版权、清洗去重、分词序列化、高效加载和质量闭环。
第三篇:多模态数据工程¶
处理图文、文档、视频、音频与跨模态对齐数据,关注样本结构、质量控制、标注增强和融合训练。
第四篇:指令微调与偏好数据¶
围绕模型对齐数据,展开 SFT 指令体系、偏好数据、奖励信号、标注平台与质量运营。
第五篇:合成数据工程¶
讲解从种子样本到合成数据工厂的流程,包括知识蒸馏、模型协作、质量控制和模型坍缩风险。
第六篇:推理与 Agent 数据工程¶
覆盖思维链、推理轨迹、Tool-Use、函数调用、Agent 记忆和多轮交互数据的构建与验证。
第七篇:应用级数据工程¶
面向 RAG 和在线知识系统,说明文档解析、视觉检索、多模态 RAG、在线反馈闭环与知识更新。
第八篇:数据运营与平台建设¶
从团队组织、版本管理、实验追踪和可观测性角度,构建可持续演进的数据平台能力。
第九篇:隐私合规与数据安全¶
说明数据合规治理、隐私保护、联邦学习和安全边界,强调工程流程中的合规门禁。
第十篇:项目实战¶
通过 10 个可运行项目,把采集、清洗、合成、RAG、Agent、DataOps、隐私保护和数据飞轮串成端到端实践。
- 项目一:基于 Ray 构建分布式 Mini-C4 数据流水线
- 项目二:垂直领域专家 SFT(法律)
- 项目三:LLaVA 多模态指令数据工厂
- 项目四:合成数学与代码教材工厂
- 项目五:多模态 RAG 企业财报助手
- 项目六:CoT 推理数据集构建与 PRM 训练
- 项目七:Agent Tool-Use 数据工厂
- 项目八:企业级 DataOps 平台搭建:从数据项目到组织级治理能力
- 项目九:隐私保护数据流水线
- 项目十:端到端 LLM 数据飞轮
- 项目十一:视频生成数据集——从视频源到可用于 T2V 训练的数据流水线