コンテンツにスキップ

第五篇:合成数据工程

本篇定位

第五篇关注从种子样本到可复用合成工厂的搭建过程,讨论知识蒸馏、教师模型协作、质量控制以及模型坍缩风险。

术语口径

本篇统一使用“合成数据”指代由模型、规则或混合流程生成并经过质检的训练候选样本;使用“教师模型”描述提供生成、评审或蒸馏信号的模型;使用“数据工厂”描述可复跑、可审计、可扩展的生成流水线。合成样本必须同时说明种子来源、生成策略、过滤规则和适用边界,不以生成规模替代质量结论。

本篇学习目标

完成本篇后,应能够:

  • 设计从种子样本、生成策略到过滤验收的合成数据流水线。
  • 选择教师模型、规则校验和人工抽检的协作方式。
  • 识别模型坍缩、分布漂移、模板化输出和虚假多样性等风险。
  • 为合成样本记录来源、版本、生成参数、质量信号和适用边界。

读者前置知识

阅读本篇前,建议先掌握第四篇的 SFT、偏好数据和 QA 口径。若读者已有合成数据经验,可重点检查自己的流程是否具备可复跑、可审计和可回滚能力,而不是只关注生成规模。

章节逻辑

第15章建立合成数据工厂的基本流程,说明种子、生成、过滤和验收如何连接。第16章讨论知识蒸馏与多模型协作,说明教师模型如何提供可迁移的监督信号。第17章收束到质量控制和模型坍缩,强调合成数据进入训练前必须经过分布、难度、真实性和风险边界检查。

本篇目录

建议阅读顺序

  • 先读第15章,理解种子样本、合成策略与交付边界。
  • 再读第16章,掌握蒸馏、教师协作和多模型配合。
  • 最后读第17章,重点关注质量控制、风险隔离与模型坍缩预防。