第二篇:文本预训练数据工程¶
本篇定位¶
第二篇聚焦文本预训练语料的生产、治理与持续迭代,讨论从数据源获取、版权边界、清洗去重、分词序列化,到质量评估与运营闭环的完整工程链路。本篇承接第一篇关于数据基础设施和质量框架的讨论,将抽象的数据生命周期落到可执行的文本预训练流水线;同时也为第三篇的多模态数据工程提供对照基线:只有先理解文本数据如何被采集、过滤、打包和评估,才能准确判断图像、文档、视频和音频数据为何会引入更复杂的表示、对齐和成本问题。
从技术书章节结构看,本篇的目标不是罗列工具,而是建立可复用的工程判断框架。读者应能够回答三个问题:第一,哪些数据源适合进入预训练语料库,哪些来源需要隔离或剔除;第二,清洗、去重、去污染和脱敏如何共同定义训练数据质量;第三,分词、序列化、加载和评估运营如何把“可用数据”稳定转化为“可训练数据”。
本篇学习目标¶
- 建立文本预训练数据从来源、采集、解析到存证的完整治理视角。
- 掌握清洗、去重、PII 脱敏和基准去污染的关键工程方法。
- 理解分词、序列化、Packing、Mixing 与高效 DataLoader 对训练吞吐的影响。
- 能够设计离线代理指标、数据版本管理和质量闭环,支持持续迭代的数据运营。
- 能够区分公开网页、代码、学术论文、书籍、企业内部数据和用户反馈数据的不同风险边界。
读者前置知识¶
阅读本篇前,建议读者已理解第一篇中的数据生命周期、质量维度、成本治理和数据栈分层。若读者已有传统 ETL、数据湖或机器学习数据处理经验,可重点关注本篇与传统文本处理不同的部分:训练语料的版权与许可边界、基准污染、离线分词、序列 Packing、跨节点 DataLoader 和数据版本回滚。
章节逻辑¶
第4章回答“数据从哪里来以及是否能用”的问题,重点是来源画像、采集管线、版权许可和元数据存证。第5章回答“原始语料如何变成高质量语料”的问题,重点是规则过滤、模型评分、去重、PII 脱敏和基准去污染。第6章回答“高质量语料如何高效进入训练系统”的问题,重点是分词、序列化、Shard、Packing、Mixing 和 DataLoader 吞吐。第7章回答“如何判断数据版本是否真的改善模型”的问题,重点是离线代理指标、数据版本化、问题样本库、根因复盘和运营节奏。
本篇与前后篇的关系也很明确:它把第一篇提出的数据质量框架落到文本预训练语料的生产流程;同时,它为第三篇多模态数据工程提供对照基线。读者会看到,许多看似属于“文本清洗”的问题,例如来源许可、去重、污染、打包和评估,在图像、视频和音频场景中会变得更复杂。
术语口径¶
本篇统一使用“预训练语料”指代进入基座模型训练前的文本数据资产,使用“数据源”指代语料来源及其许可边界,使用“清洗、去重与去污染”分别描述质量过滤、重复控制和评测集污染消除。涉及 Token、分词、序列化和高效加载时,应明确其作用是把文本资产转化为训练系统可稳定消费的输入,而不是把数据工程简化为文件处理。
本篇目录¶
建议按第4章至第7章顺序阅读。已有预训练经验的读者可以先读第7章建立质量闭环视角,再回到第4至第6章检查自己的数据管线是否具备可追溯、可诊断和可复现能力。