第二篇：文本预训练数据工程¶

本篇定位¶

第二篇聚焦文本预训练语料的生产、治理与持续迭代，讨论从数据源获取、版权边界、清洗去重、分词序列化，到质量评估与运营闭环的完整工程链路。本篇承接第一篇关于数据基础设施和质量框架的讨论，将抽象的数据生命周期落到可执行的文本预训练流水线；同时也为第三篇的多模态数据工程提供对照基线：只有先理解文本数据如何被采集、过滤、打包和评估，才能准确判断图像、文档、视频和音频数据为何会引入更复杂的表示、对齐和成本问题。

从技术书章节结构看，本篇的目标不是罗列工具，而是建立可复用的工程判断框架。读者应能够回答三个问题：第一，哪些数据源适合进入预训练语料库，哪些来源需要隔离或剔除；第二，清洗、去重、去污染和脱敏如何共同定义训练数据质量；第三，分词、序列化、加载和评估运营如何把“可用数据”稳定转化为“可训练数据”。

本篇学习目标¶

建立文本预训练数据从来源、采集、解析到存证的完整治理视角。
掌握清洗、去重、PII 脱敏和基准去污染的关键工程方法。
理解分词、序列化、Packing、Mixing 与高效 DataLoader 对训练吞吐的影响。
能够设计离线代理指标、数据版本管理和质量闭环，支持持续迭代的数据运营。
能够区分公开网页、代码、学术论文、书籍、企业内部数据和用户反馈数据的不同风险边界。

读者前置知识¶

阅读本篇前，建议读者已理解第一篇中的数据生命周期、质量维度、成本治理和数据栈分层。若读者已有传统 ETL、数据湖或机器学习数据处理经验，可重点关注本篇与传统文本处理不同的部分：训练语料的版权与许可边界、基准污染、离线分词、序列 Packing、跨节点 DataLoader 和数据版本回滚。

章节逻辑¶

第4章回答“数据从哪里来以及是否能用”的问题，重点是来源画像、采集管线、版权许可和元数据存证。第5章回答“原始语料如何变成高质量语料”的问题，重点是规则过滤、模型评分、去重、PII 脱敏和基准去污染。第6章回答“高质量语料如何高效进入训练系统”的问题，重点是分词、序列化、Shard、Packing、Mixing 和 DataLoader 吞吐。第7章回答“如何判断数据版本是否真的改善模型”的问题，重点是离线代理指标、数据版本化、问题样本库、根因复盘和运营节奏。

本篇与前后篇的关系也很明确：它把第一篇提出的数据质量框架落到文本预训练语料的生产流程；同时，它为第三篇多模态数据工程提供对照基线。读者会看到，许多看似属于“文本清洗”的问题，例如来源许可、去重、污染、打包和评估，在图像、视频和音频场景中会变得更复杂。

术语口径¶

本篇统一使用“预训练语料”指代进入基座模型训练前的文本数据资产，使用“数据源”指代语料来源及其许可边界，使用“清洗、去重与去污染”分别描述质量过滤、重复控制和评测集污染消除。涉及 Token、分词、序列化和高效加载时，应明确其作用是把文本资产转化为训练系统可稳定消费的输入，而不是把数据工程简化为文件处理。

本篇目录¶

建议按第4章至第7章顺序阅读。已有预训练经验的读者可以先读第7章建立质量闭环视角，再回到第4至第6章检查自己的数据管线是否具备可追溯、可诊断和可复现能力。