跳转至

第十三篇:开源大模型数据工程配方与范式

本篇定位

第十三篇从专项案例转入开源模型数据配方,目标是抽象长期可迁移的数据工程范式。开源模型报告、训练日志和配套仓库中常出现大量模型名称、数据集名称和指标结论;本篇的重点不是追逐单个热点模型,而是识别不同训练阶段背后的数据组织原则。

本篇覆盖五类配方:预训练数据配方、后训练数据配方、RL/推理数据配方、VLM 数据配方和 T2I/T2V 生成模型数据配方。它们分别对应“模型从哪些原料开始学习”“如何获得可控行为”“如何形成可验证推理”“如何完成视觉语言对齐”“如何让生成模型吸收高质量图文/视频监督”等问题。

向前看,本篇承接第一至第十二篇形成的方法、平台、评测和合规基础。向后看,本篇为第十四篇 P11-P15 的开源模型复现、推理飞轮、多模态指令工厂、视频生成流水线和 DataAgent 应用案例提供配方坐标。

术语口径

本篇统一使用“数据配方(Data Recipe)”描述数据来源、比例、处理策略、训练阶段和评测目标之间的组合关系;使用“后训练”覆盖 SFT、偏好对齐、RL 和推理强化等模型行为塑造阶段;使用“VLM 数据配方”和“T2I/T2V 数据流水线”分别描述理解型多模态模型与生成型多模态模型的数据组织方式。引用开源技术报告时,应区分公开可验证结论、工程推断和本书整理出的迁移建议。

本篇目录

配方范式

预训练配方关注语料来源、配比、去重、质量过滤、token 分布和训练样本打包。其核心问题是如何在规模、质量、多样性和成本之间建立可解释的平衡。

后训练配方关注 SFT、偏好、拒绝采样、指令覆盖、安全边界和评测回写。其核心问题是如何把通用模型能力转化为受控行为,并让样本质量能够被追踪。

RL/推理配方关注长链推理、过程监督、验证器、奖励信号、回流数据和失败轨迹。其核心问题是如何把推理正确性从最终答案扩展到过程结构。

VLM 配方关注图文对齐、OCR、视觉问答、文档图像、图表理解和多轮对话。其核心问题是如何让视觉证据、文本指令和训练目标保持一致。

T2I/T2V 配方关注图像、视频、caption、运动信息、质量评分、安全过滤和版权边界。其核心问题是如何把媒体资产转化为可训练、可审计、可发布的生成模型监督数据。

阅读顺序

建议先读第44章和第45章,建立预训练与后训练的数据配方基线;再读第46章,理解推理模型与 RL 数据工程的分化;最后阅读第47章和第48章,进入 VLM 与多模态生成模型的数据配方。

需要进一步复现时,可转入第十四篇 P11-P15,把本篇抽象出的配方与项目案例中的资源约束、指标验收和失败模式相互对照。