跳转至

《大模型数据工程:架构、算法及项目实战》

全书目录概览

本书当前中文出版稿采用 2026 年冻结结构,正文覆盖 48 章、15 个端到端项目与 8 个附录(A–H)。为降低跨篇阅读门槛,本版在前置部分新增在线资源入口和统一的缩写表,并为每一篇补充了分册目录页。

分篇目录

第一篇:总论与基础设施

建立大模型数据工程的核心认知,说明数据生命周期、质量评估、平台栈和成本治理的基本框架。

第二篇:文本预训练数据工程

面向大规模文本语料,覆盖数据来源、采集版权、清洗去重、分词序列化、高效加载和质量闭环。

第三篇:多模态数据工程

处理图文、文档、视频、音频与跨模态对齐数据,关注样本结构、质量控制、标注增强和融合训练。

第四篇:指令微调与偏好数据

围绕模型对齐数据,展开 SFT 指令体系、偏好数据、奖励信号、标注平台与质量运营。

第五篇:合成数据工程

讲解从种子样本到合成数据工厂的流程,包括知识蒸馏、模型协作、质量控制和模型坍缩风险。

第六篇:推理与 Agent 数据工程

覆盖思维链、推理轨迹、Tool-Use、函数调用、Agent 记忆和多轮交互数据的构建与验证。

第七篇:应用级数据工程

面向 RAG 和在线知识系统,说明文档解析、视觉检索、多模态 RAG、在线反馈闭环与知识更新。

第八篇:数据运营与平台建设

从团队组织、版本管理、实验追踪和可观测性角度,构建可持续演进的数据平台能力。

第九篇:数据资产、数据产品与数据契约

第九篇补齐数据资产化、数据产品、价值评估和企业内部共享治理,使前文的数据流水线进一步沉淀为可发现、可复用、可审计的组织级资产。

第十篇:智能化数据工程与 Data Engineering Agent

第十篇讨论 Agentic Data Engineering,聚焦数据工程 Agent 如何参与采集、解析、清洗、标注、合成、评测、DataOps 与安全协同,并以 DataAgent 作为贯穿式工程参照,将抽象架构连接到可运行的数据工程 Agent 系统。

第十一篇:隐私合规与数据安全

第十一篇聚焦数据合规、隐私保护、联邦学习与安全边界,强调在工程流程中把法规要求、风险控制与可审计能力前置到数据生命周期。

第十二篇:专项数据集与多模态数据工程实践

第十二篇以文本语料、图文候选池、视觉文档与表格、视觉推理、语音音频和推理轨迹为主线,讨论专项数据集如何被定义、构建、评测、发布和复现。各章围绕任务定义、样本 schema、构建流水线、质量控制、评测协议和合规风险展开,并向后连接项目案例研究与开源模型数据配方。

第十三篇:开源大模型数据工程配方与范式

第十三篇聚焦开源大模型的数据配方、训练范式与工程化组织方式,覆盖预训练、后训练、推理强化学习、VLM、T2I/T2V 等关键方向。

第十四篇:项目实战

通过 15 个可运行项目案例,把采集、清洗、合成、RAG、Agent、DataOps、隐私保护、数据飞轮、开源模型复现、视频生成数据流水线与企业级语义问数助手串成端到端实践。

附录