第一篇：总论与基础设施¶

本篇定位¶

第一篇建立全书的共同认知框架，重点说明大模型数据工程的对象、边界、质量目标、核心成本项与基础设施分层。它不以单一工具或单一模型为中心，而是从数据生命周期出发，解释为什么数据已经成为大模型能力、成本和风险控制的共同约束。

从出版稿结构看，本篇承担三项功能。第一，第1章给出问题背景和范式迁移，说明大模型研发为何必须从“模型中心”转向“数据与系统共同治理”。第二，第2章建立贯穿全书的数据质量语言，将噪声、重复、污染、偏差、缺失和时效等问题转化为可测量、可复盘、可阻断的工程指标。第三，第3章把质量框架落到基础设施层，讨论采集接入、处理编排、存储索引、评测运营和治理安全如何共同支撑训练与应用。

本篇学习目标¶

完成本篇后，应能够：

解释大模型数据工程与传统数据仓库、传统机器学习数据处理之间的关键差异。
识别预训练、指令微调、偏好对齐和 RAG 应用阶段的不同质量目标。
将常见数据问题映射为可检测的质量指标、治理动作和回滚策略。
依据团队规模和训练目标，初步设计 AI 原生数据栈与成本治理方案。

术语口径¶

本篇统一使用“大模型数据工程”指代围绕训练、对齐、应用和治理的数据生命周期活动；使用“数据生命周期”描述采集、清洗、标注、评测、上线、反馈和回收的连续过程；使用“AI 原生数据栈”描述服务于大模型训练与应用的数据基础设施。后续各篇中的预训练语料、SFT 数据、偏好数据、RAG 语料、Agent 轨迹和数据产品，均应回到本篇的数据质量、成本治理和风险边界框架中理解。

章节关系¶

第1章提出全书的基本命题：数据质量、数据规模和数据多样性共同决定模型能力边界。第2章回答“如何判断数据是否可用”，并给出质量评分卡和治理闸门。第3章回答“用什么基础设施承载这些治理动作”，并将后续各篇的清洗、对齐、RAG、DataOps 与合规内容放入统一架构中。

全书总目录¶

本篇目录¶

建议阅读顺序¶

先读第1章，建立“数据决定模型上限”的总体问题意识。
再读第2章，掌握数据生命周期、质量分层与评估框架。
最后读第3章，把认知框架落到平台、算力、存储与成本治理。