コンテンツにスキップ

第一篇:总论与基础设施

本篇定位

第一篇建立全书的共同认知框架,重点说明大模型数据工程的对象、边界、质量目标、核心成本项与基础设施分层。它不以单一工具或单一模型为中心,而是从数据生命周期出发,解释为什么数据已经成为大模型能力、成本和风险控制的共同约束。

从出版稿结构看,本篇承担三项功能。第一,第1章给出问题背景和范式迁移,说明大模型研发为何必须从“模型中心”转向“数据与系统共同治理”。第二,第2章建立贯穿全书的数据质量语言,将噪声、重复、污染、偏差、缺失和时效等问题转化为可测量、可复盘、可阻断的工程指标。第三,第3章把质量框架落到基础设施层,讨论采集接入、处理编排、存储索引、评测运营和治理安全如何共同支撑训练与应用。

本篇学习目标

完成本篇后,应能够:

  • 解释大模型数据工程与传统数据仓库、传统机器学习数据处理之间的关键差异。
  • 识别预训练、指令微调、偏好对齐和 RAG 应用阶段的不同质量目标。
  • 将常见数据问题映射为可检测的质量指标、治理动作和回滚策略。
  • 依据团队规模和训练目标,初步设计 AI 原生数据栈与成本治理方案。

术语口径

本篇统一使用“大模型数据工程”指代围绕训练、对齐、应用和治理的数据生命周期活动;使用“数据生命周期”描述采集、清洗、标注、评测、上线、反馈和回收的连续过程;使用“AI 原生数据栈”描述服务于大模型训练与应用的数据基础设施。后续各篇中的预训练语料、SFT 数据、偏好数据、RAG 语料、Agent 轨迹和数据产品,均应回到本篇的数据质量、成本治理和风险边界框架中理解。

章节关系

第1章提出全书的基本命题:数据质量、数据规模和数据多样性共同决定模型能力边界。第2章回答“如何判断数据是否可用”,并给出质量评分卡和治理闸门。第3章回答“用什么基础设施承载这些治理动作”,并将后续各篇的清洗、对齐、RAG、DataOps 与合规内容放入统一架构中。

全书总目录

  1. 第一篇:总论与基础设施
  2. 第二篇:文本预训练数据工程
  3. 第三篇:多模态数据工程
  4. 第四篇:指令微调与偏好数据
  5. 第五篇:合成数据工程
  6. 第六篇:推理与 Agent 数据工程
  7. 第七篇:应用级数据工程
  8. 第八篇:数据运营与平台建设
  9. 第九篇:数据资产、数据产品与数据契约
  10. 第十篇:智能化数据工程与 Data Engineering Agent
  11. 第十一篇:隐私合规与数据安全
  12. 第十二篇:专项数据集与多模态数据工程实践
  13. 第十三篇:开源大模型数据工程配方与范式
  14. 第十四篇:项目实战

本篇目录

建议阅读顺序

  • 先读第1章,建立“数据决定模型上限”的总体问题意识。
  • 再读第2章,掌握数据生命周期、质量分层与评估框架。
  • 最后读第3章,把认知框架落到平台、算力、存储与成本治理。