跳转至

《大模型数据工程:架构、算法及项目实战》

全书目录概览

本书当前中文主线采用 2026 版结构,正文覆盖 28 章与 10 个端到端项目。英文版与日文版正在跟进翻译,当前以翻译状态页说明新版范围。

  • 序言
  • 第一篇:总论与基础设施
  • 第二篇:文本预训练数据工程
  • 第三篇:多模态数据工程
  • 第四篇:指令微调与偏好数据
  • 第五篇:合成数据工程
  • 第六篇:推理与 Agent 数据工程
  • 第七篇:应用级数据工程
  • 第八篇:数据运营与平台建设
  • 第九篇:隐私合规与数据安全
  • 第十篇:项目实战
  • 第十一篇:开源⼤模型数据⼯程实战

第一篇:总论与基础设施

建立大模型数据工程的核心认知,说明数据生命周期、质量评估、平台栈和成本治理的基本框架。

第二篇:文本预训练数据工程

面向大规模文本语料,覆盖数据来源、采集版权、清洗去重、分词序列化、高效加载和质量闭环。

第三篇:多模态数据工程

处理图文、文档、视频、音频与跨模态对齐数据,关注样本结构、质量控制、标注增强和融合训练。

第四篇:指令微调与偏好数据

围绕模型对齐数据,展开 SFT 指令体系、偏好数据、奖励信号、标注平台与质量运营。

第五篇:合成数据工程

讲解从种子样本到合成数据工厂的流程,包括知识蒸馏、模型协作、质量控制和模型坍缩风险。

第六篇:推理与 Agent 数据工程

覆盖思维链、推理轨迹、Tool-Use、函数调用、Agent 记忆和多轮交互数据的构建与验证。

第七篇:应用级数据工程

面向 RAG 和在线知识系统,说明文档解析、视觉检索、多模态 RAG、在线反馈闭环与知识更新。

第八篇:数据运营与平台建设

从团队组织、版本管理、实验追踪和可观测性角度,构建可持续演进的数据平台能力。

第九篇:隐私合规与数据安全

说明数据合规治理、隐私保护、联邦学习和安全边界,强调工程流程中的合规门禁。

第十篇:项目实战

通过 10 个可运行项目,把采集、清洗、合成、RAG、Agent、DataOps、隐私保护和数据飞轮串成端到端实践。

第十一篇:开源⼤模型数据⼯程实战