《大模型数据工程:架构、算法及项目实战》¶
全书目录概览¶
本书当前中文出版稿采用 2026 年冻结结构,正文覆盖 48 章、15 个端到端项目与 8 个附录(A–H)。为降低跨篇阅读门槛,本版在前置部分新增在线资源入口和统一的缩写表,并为每一篇补充了分册目录页。
- 题名页
- 作者机构信息
- 在线资源与讨论入口
- 序言
- 致谢
- 利益冲突声明
- 伦理审批
- 卷前导读:全书结构、阅读路径与版本说明
- 贡献者
- 缩写表
- 第一篇:总论与基础设施
- 第二篇:文本预训练数据工程
- 第三篇:多模态数据工程
- 第四篇:指令微调与偏好数据
- 第五篇:合成数据工程
- 第六篇:推理与 Agent 数据工程
- 第七篇:应用级数据工程
- 第八篇:数据运营与平台建设
- 第九篇:数据资产、数据产品与数据契约
- 第十篇:智能化数据工程与 Data Engineering Agent
- 第十一篇:隐私合规与数据安全
- 第十二篇:专项数据集与多模态数据工程实践
- 第十三篇:开源大模型数据工程配方与范式
- 第十四篇:项目实战
分篇目录¶
第一篇:总论与基础设施¶
建立大模型数据工程的核心认知,说明数据生命周期、质量评估、平台栈和成本治理的基本框架。
第二篇:文本预训练数据工程¶
面向大规模文本语料,覆盖数据来源、采集版权、清洗去重、分词序列化、高效加载和质量闭环。
第三篇:多模态数据工程¶
处理图文、文档、视频、音频与跨模态对齐数据,关注样本结构、质量控制、标注增强和融合训练。
第四篇:指令微调与偏好数据¶
围绕模型对齐数据,展开 SFT 指令体系、偏好数据、奖励信号、标注平台与质量运营。
第五篇:合成数据工程¶
讲解从种子样本到合成数据工厂的流程,包括知识蒸馏、模型协作、质量控制和模型坍缩风险。
第六篇:推理与 Agent 数据工程¶
覆盖思维链、推理轨迹、Tool-Use、函数调用、Agent 记忆和多轮交互数据的构建与验证。
第七篇:应用级数据工程¶
面向 RAG 和在线知识系统,说明文档解析、视觉检索、多模态 RAG、在线反馈闭环与知识更新。
第八篇:数据运营与平台建设¶
从团队组织、版本管理、实验追踪和可观测性角度,构建可持续演进的数据平台能力。
第九篇:数据资产、数据产品与数据契约¶
第九篇补齐数据资产化、数据产品、价值评估和企业内部共享治理,使前文的数据流水线进一步沉淀为可发现、可复用、可审计的组织级资产。
第十篇:智能化数据工程与 Data Engineering Agent¶
第十篇讨论 Agentic Data Engineering,聚焦数据工程 Agent 如何参与采集、解析、清洗、标注、合成、评测、DataOps 与安全协同,并以 DataAgent 作为贯穿式工程参照,将抽象架构连接到可运行的数据工程 Agent 系统。
- 本篇目录
- 第31章:数据工程 Agent 的架构与任务边界
- 第32章:自动化采集、解析与清洗 Agent
- 第33章:标注、合成与评测 Agent
- 第34章:DataOps Agent 与平台自治
- 第35章:数据工程 Agent 的安全、权限与人机协同
第十一篇:隐私合规与数据安全¶
第十一篇聚焦数据合规、隐私保护、联邦学习与安全边界,强调在工程流程中把法规要求、风险控制与可审计能力前置到数据生命周期。
第十二篇:专项数据集与多模态数据工程实践¶
第十二篇以文本语料、图文候选池、视觉文档与表格、视觉推理、语音音频和推理轨迹为主线,讨论专项数据集如何被定义、构建、评测、发布和复现。各章围绕任务定义、样本 schema、构建流水线、质量控制、评测协议和合规风险展开,并向后连接项目案例研究与开源模型数据配方。
- 本篇目录
- 第38章:文本语料数据工程:开放 Web、过滤去重与透明账本
- 第39章:图文数据工程:候选池构建、多模态筛选与 DataComp 评估
- 第40章:视觉文档与表格数据工程:结构化抽取、稀疏表格与 Schema 约束
- 第41章:视觉推理数据工程:图表证据、医学图像与工具调用轨迹
- 第42章:语音与音频数据工程:交互控制、风格标签与安全边界
- 第43章:推理轨迹数据工程:长链压缩、隐式计算与监督掩码
第十三篇:开源大模型数据工程配方与范式¶
第十三篇聚焦开源大模型的数据配方、训练范式与工程化组织方式,覆盖预训练、后训练、推理强化学习、VLM、T2I/T2V 等关键方向。
- 本篇目录
- 第44章:LLM 预训练数据工程实战:从配方到落地
- 第45章:LLM 后训练数据工程实战:SFT 与偏好对齐
- 第46章:推理模型与 RL 数据工程:R1 / QwQ 范式
- 第47章:多模态大模型(VLM)数据配方:从预训练到视觉对齐
- 第48章:多模态生成模型数据工程:T2I 与 T2V 数据流水线
第十四篇:项目实战¶
通过 15 个可运行项目案例,把采集、清洗、合成、RAG、Agent、DataOps、隐私保护、数据飞轮、开源模型复现、视频生成数据流水线与企业级语义问数助手串成端到端实践。
- 本篇目录
- 项目一:基于 Ray 构建分布式 Mini-C4 数据流水线
- 项目二:垂直领域专家 SFT(法律)
- 项目三:LLaVA 多模态指令数据工厂
- 项目四:合成数学与代码教材工厂
- 项目五:多模态 RAG 企业财报助手
- 项目六:CoT 推理数据集构建与 PRM 训练
- 项目七:Agent Tool-Use 数据工厂
- 项目八:企业级 DataOps 平台搭建:从数据项目到组织级治理能力
- 项目九:隐私保护数据流水线
- 项目十:端到端 LLM 数据飞轮
- 项目十一:Mini-DeepSeek 预训练复现
- 项目十二:教学化 R1 推理数据飞轮
- 项目十三:Qwen-VL 多模态指令工厂
- 项目十四:视频生成数据集:从视频源到可用于 T2V 训练的数据流水线
- 项目十五:基于 DataAgent 构建企业级语义问数助手