第一篇:总论与基础设施¶
本篇定位¶
第一篇建立全书的共同认知框架,重点说明大模型数据工程的对象、边界、质量目标、核心成本项与基础设施分层。它不以单一工具或单一模型为中心,而是从数据生命周期出发,解释为什么数据已经成为大模型能力、成本和风险控制的共同约束。
从出版稿结构看,本篇承担三项功能。第一,第1章给出问题背景和范式迁移,说明大模型研发为何必须从“模型中心”转向“数据与系统共同治理”。第二,第2章建立贯穿全书的数据质量语言,将噪声、重复、污染、偏差、缺失和时效等问题转化为可测量、可复盘、可阻断的工程指标。第三,第3章把质量框架落到基础设施层,讨论采集接入、处理编排、存储索引、评测运营和治理安全如何共同支撑训练与应用。
本篇学习目标¶
完成本篇后,应能够:
- 解释大模型数据工程与传统数据仓库、传统机器学习数据处理之间的关键差异。
- 识别预训练、指令微调、偏好对齐和 RAG 应用阶段的不同质量目标。
- 将常见数据问题映射为可检测的质量指标、治理动作和回滚策略。
- 依据团队规模和训练目标,初步设计 AI 原生数据栈与成本治理方案。
术语口径¶
本篇统一使用“大模型数据工程”指代围绕训练、对齐、应用和治理的数据生命周期活动;使用“数据生命周期”描述采集、清洗、标注、评测、上线、反馈和回收的连续过程;使用“AI 原生数据栈”描述服务于大模型训练与应用的数据基础设施。后续各篇中的预训练语料、SFT 数据、偏好数据、RAG 语料、Agent 轨迹和数据产品,均应回到本篇的数据质量、成本治理和风险边界框架中理解。
章节关系¶
第1章提出全书的基本命题:数据质量、数据规模和数据多样性共同决定模型能力边界。第2章回答“如何判断数据是否可用”,并给出质量评分卡和治理闸门。第3章回答“用什么基础设施承载这些治理动作”,并将后续各篇的清洗、对齐、RAG、DataOps 与合规内容放入统一架构中。
全书总目录¶
- 第一篇:总论与基础设施
- 第二篇:文本预训练数据工程
- 第三篇:多模态数据工程
- 第四篇:指令微调与偏好数据
- 第五篇:合成数据工程
- 第六篇:推理与 Agent 数据工程
- 第七篇:应用级数据工程
- 第八篇:数据运营与平台建设
- 第九篇:数据资产、数据产品与数据契约
- 第十篇:智能化数据工程与 Data Engineering Agent
- 第十一篇:隐私合规与数据安全
- 第十二篇:专项数据集与多模态数据工程实践
- 第十三篇:开源大模型数据工程配方与范式
- 第十四篇:项目实战
本篇目录¶
建议阅读顺序¶
- 先读第1章,建立“数据决定模型上限”的总体问题意识。
- 再读第2章,掌握数据生命周期、质量分层与评估框架。
- 最后读第3章,把认知框架落到平台、算力、存储与成本治理。