コンテンツにスキップ

第四篇:指令微调与偏好数据

本篇定位

第四篇聚焦模型对齐后的监督数据建设,覆盖监督微调、偏好学习、奖励信号、标注平台、质量保障与数据运营机制。

术语口径

本篇统一使用“指令微调数据(SFT Data)”描述用于监督微调的输入输出样本,使用“偏好数据(Preference Data)”描述用于排序、奖励建模或偏好优化的比较样本。SFT、偏好数据、奖励信号和 QA 记录应分别说明样本目标、标注口径和验收标准,避免将所有后训练数据统称为“标注数据”。

本篇学习目标

完成本篇后,应能够:

  • 设计覆盖任务、格式、语气、安全边界和拒答策略的 SFT 样本体系。
  • 区分偏好数据、奖励信号、排序样本和人工 QA 记录的用途。
  • 建立标注平台、质检抽样、争议仲裁和数据运营之间的协作链路。
  • 判断一批后训练数据是否具备可追溯、可复查和可持续迭代的条件。

读者前置知识

阅读本篇前,建议已经理解第二篇的文本数据治理和第三篇的多模态样本结构。若读者主要关注模型训练,可重点关注本篇如何把原始任务需求转化为稳定的监督信号;若读者来自标注或运营团队,可重点关注样本口径、验收标准和争议处理机制。

章节逻辑

第12章回答“什么样的输入输出样本适合用于监督微调”,重点是任务体系、指令模板和覆盖度。第13章回答“如何把偏好和奖励信号转化为可训练数据”,重点是成对比较、排序、奖励建模和安全反馈。第14章回答“如何让标注与 QA 成为可运营系统”,重点是平台流程、抽检机制、标注一致性和长期数据运营。

本篇目录

建议阅读顺序

  • 先读第12章,掌握 SFT 样本结构、任务设计与指令模板。
  • 再读第13章,理解偏好数据、奖励建模与排序信号。
  • 最后读第14章,把标注平台、QA 流程与组织运营衔接起来。