コンテンツにスキップ

大規模モデルデータエンジニアリング: アーキテクチャ・アルゴリズム・実践プロジェクト

第五篇：合成数据工程

大規模モデルデータエンジニアリング: アーキテクチャ・アルゴリズム・実践プロジェクト

第五篇：合成数据工程¶

本篇定位¶

第五篇关注从种子样本到可复用合成工厂的搭建过程，讨论知识蒸馏、教师模型协作、质量控制以及模型坍缩风险。

术语口径¶

本篇统一使用“合成数据”指代由模型、规则或混合流程生成并经过质检的训练候选样本；使用“教师模型”描述提供生成、评审或蒸馏信号的模型；使用“数据工厂”描述可复跑、可审计、可扩展的生成流水线。合成样本必须同时说明种子来源、生成策略、过滤规则和适用边界，不以生成规模替代质量结论。

本篇学习目标¶

完成本篇后，应能够：

设计从种子样本、生成策略到过滤验收的合成数据流水线。
选择教师模型、规则校验和人工抽检的协作方式。
识别模型坍缩、分布漂移、模板化输出和虚假多样性等风险。
为合成样本记录来源、版本、生成参数、质量信号和适用边界。

读者前置知识¶

阅读本篇前，建议先掌握第四篇的 SFT、偏好数据和 QA 口径。若读者已有合成数据经验，可重点检查自己的流程是否具备可复跑、可审计和可回滚能力，而不是只关注生成规模。

章节逻辑¶

第15章建立合成数据工厂的基本流程，说明种子、生成、过滤和验收如何连接。第16章讨论知识蒸馏与多模型协作，说明教师模型如何提供可迁移的监督信号。第17章收束到质量控制和模型坍缩，强调合成数据进入训练前必须经过分布、难度、真实性和风险边界检查。

本篇目录¶

建议阅读顺序¶

先读第15章，理解种子样本、合成策略与交付边界。
再读第16章，掌握蒸馏、教师协作和多模型配合。
最后读第17章，重点关注质量控制、风险隔离与模型坍缩预防。