第十二篇:专项数据集与多模态数据工程实践¶
本篇定位¶
第十二篇承担全书的方法验证功能。前十一篇已经建立数据生命周期、文本预训练、多模态处理、对齐数据、推理数据、RAG、DataOps、数据资产化、Agent 自动化和合规治理等框架;本篇将这些方法落到具体数据对象中,并按照“文本语料、图文候选池、视觉文档与表格、视觉推理、语音音频、推理轨迹”的顺序,检验专项数据集如何被定义、构建、评测、发布和复现。
本篇不以数据集名称罗列为目标,而以“不同模态和数据形态下,专项数据集与业界数据工程数据集如何形成可复查资产”为主线。第38章和第39章先从开放 Web 文本语料与图文候选池切入,回应第二篇文本预训练数据工程和第三篇图文多模态数据工程;第40章和第41章进入视觉文档、表格、图表、医学图像和工具调用轨迹;第42章把语音与音频交互数据单独展开;第43章以推理轨迹压缩收束,连接第六篇推理数据、第十三篇推理模型与 RL 数据工程,以及第十四篇项目实战。
向前看,本篇承接第二篇的文本语料、第三篇的多模态数据、第五篇的合成数据、第六篇的工具与推理数据、第八篇的数据运营和第十一篇的合规治理。向后看,本篇为第十三篇的开源模型数据配方和第十四篇的项目案例研究提供可引用的工程证据。
术语口径¶
本篇统一使用“专项数据集”描述围绕特定任务、场景或评测协议构建的数据资产;使用“样本 schema”描述字段、输入、输出、监督信号和质量标签的结构约定;使用“评测协议”描述指标、切分、基线、错误归因和复现条件。每个案例都应明确数据集解决的工程问题,而不是只介绍名称、规模或模型任务。
本篇目录¶
- 第38章:文本语料数据工程:开放 Web、过滤去重与透明账本
- 第39章:图文数据工程:候选池构建、多模态筛选与 DataComp 评估
- 第40章:视觉文档与表格数据工程:结构化抽取、稀疏表格与 Schema 约束
- 第41章:视觉推理数据工程:图表证据、医学图像与工具调用轨迹
- 第42章:语音与音频数据工程:交互控制、风格标签与安全边界
- 第43章:推理轨迹数据工程:长链压缩、隐式计算与监督掩码
阅读顺序¶
第38章合并 FineWeb 与 Dolma,围绕开放 Web 文本抽取、过滤去重、隐私处理、来源账本和可归因评估展开,适合与第二篇文本预训练数据工程和第十三篇预训练配方配合阅读。
第39章以 LAION-5B 和 DataComp 为主,讨论图文候选池、多模态筛选通道、质量评估和治理边界,承接第38章的开放 Web 来源,并向第三篇图文多模态数据工程过渡。
第40章合并 StructBill-CN 与 SparseTable-Bench,围绕视觉文档、票据字段、表格结构和空单元格鲁棒性展开,适合与第三篇的 OCR、多模态图像和跨模态对齐配合阅读。
第41章合并多图表信息图与 MedImage-ToolVQA,围绕视觉证据、跨图表推理、医学图像 ROI 和工具调用轨迹展开,适合连接第六篇的 Agent 数据、第十篇的 Data Engineering Agent 和第十一篇的隐私合规。
第42章单独讨论 VoiceStyleControl,围绕语音交互、S2S、TTS、风格标签、授权状态和滥用风险治理展开,回应第三篇的视频与音频数据工程。
第43章单独讨论 Latent-Switch-69K,围绕 Long-CoT 压缩、latent budget、student sequence 和 supervision mask 展开,向后衔接第十三篇的后训练、推理模型、RL 数据工程和第十四篇的 R1 推理飞轮案例。