第三篇：多模态数据工程¶

本篇定位¶

第三篇围绕图文、文档、视频、音频以及跨模态对齐展开，讨论多模态样本结构、视觉与声学清洗、重标注、文档理解、时序切片、跨模态对齐与融合训练的工程体系。本篇承接第二篇的文本预训练流水线，将数据工程问题从一维文本序列扩展到图像、版面、时间轴和异构模态空间。

多模态数据相较文本数据引入四类额外挑战。第一是对齐：文本、图像、音频和视频并不天然描述同一对象，必须通过语义、空间或时间锚点建立对应关系。第二是表示：视觉和声学信号需要经过 Patch、Feature、Token 或占位符机制才能进入语言模型训练接口。第三是评价：图像清晰度、OCR 可靠性、音画同步和跨模态语义一致性很难仅靠低成本文本指标判断。第四是成本：解码、重标注、OCR、ASR、向量打分和人工抽检都会显著提高预处理与训练前验证成本。

本篇（第8至第11章）以图文对数据工程为起点，随后讨论重标注与文档理解，进一步展开视频与音频数据工程，最后收束到跨模态对齐与融合。读者应重点把握“单模态清洗并不等于跨模态监督成立”这一主线。

本篇学习目标¶

区分图文对、交错图文、文档截图、音视频片段和跨模态融合样本的工程差异。
掌握图像质量过滤、语义对齐、重标注、OCR 增强和文档结构化的基本流程。
理解视频切片、ASR、Diarization、音画同步和事件标注如何构成长时序样本。
能够设计对象级、片段级和文档级跨模态对齐数据，并识别常见失败模式。
能够从成本、合规、抽检和可追溯性角度评估多模态数据管线是否可进入训练。

读者前置知识¶

阅读本篇前，建议读者已经掌握第二篇关于文本预训练数据源、清洗去重、分词序列化和质量闭环的基本方法。若读者主要来自计算机视觉、语音或多媒体系统方向，可重点关注本篇如何把图像、音频和视频信号转化为训练接口可读取的 Token、Feature、JSONL Schema 和元数据约束。

章节逻辑¶

第8章建立静态图文样本的基础资产观，讨论图像清洗、CLIP/SigLIP 过滤、AnyRes 和数据混合。第9章进入细粒度监督生产，讨论 Re-captioning、OCR、版面结构和文档理解样本。第10章处理时间维度，讨论视频切片、音频转写、声学分离和时序对齐。第11章将前三章的单模态与双模态处理结果汇总为跨模态融合样本，重点讨论对齐层次、难负样本、配比和评估闭环。

本篇向前承接第二篇的文本预训练管线，向后连接第四篇的指令对齐与偏好数据。换言之，第三篇负责解决“模型能否看见、听见并对齐不同模态”的问题；第四篇将在此基础上继续讨论“模型如何按照人类指令和偏好行动”的问题。

术语口径¶

本篇统一使用“多模态数据工程”指代图像、文本、视频、音频和文档等多类信号的采集、清洗、重标注、对齐和封装过程。图文对、文档样本、音视频片段和跨模态融合样本应区分描述，不混用为一般“数据”；“对齐”在本篇特指模态间语义、时间、空间和结构关系的绑定，不等同于后续价值观或偏好对齐。

本篇目录¶

建议按第8章至第11章顺序阅读。已有视觉语言模型经验的读者可以先读第11章理解跨模态对齐目标，再回读第8章、第9章与第10章，定位各类对齐信号的来源。