第13章:偏好数据与奖励信号¶
摘要¶
完成监督微调后,模型已能听懂指令并按格式作答,但能否稳定地按组织期望作答,取决于偏好数据与奖励信号的设计。本章面向负责偏好数据构建与奖励建模的团队,阐述偏好数据如何决定模型的行为风格,以及为何 SFT 之后仍需偏好对齐。章节先区分偏好对(pairwise preference)、标量奖励(scalar score)与过程奖励(process reward)三类监督形态及其数据要求;随后讨论专家标注、用户反馈、模型互评、规则裁判等偏好来源,以及在线、离线与合成偏好的混合策略;进而处理标注分歧、风格偏见与评分漂移,给出仲裁、复标、标注员校准与黄金集等一致性治理方法;最后建立偏好数据与 DPO、RM、RLAIF、PRM 等训练方法的接口映射,说明何时使用偏好对、何时使用过程监督。
完成 SFT 后,模型通常已经能完成基本任务:能听懂指令,也能按照一定格式给出答案。但进入真实业务场景后,问题往往不再是“会不会答”,而是“会不会稳定地按组织期望答”。
这里所谓“选择”,并不指向模型在搜索空间中选取哪一个 token 这样底层的采样行为;更准确地说,它关注的是模型在多个都“基本正确”的表达路径中,会偏向什么样的风格、遵循什么样的价值排序、优先满足哪些目标、在目标冲突时怎样权衡。一个没有经过偏好对齐的模型,可能在事实层面并无大错,但会表现出啰嗦、迎合、保守、含混、过度自信、过度模板化、风险边界松动,或者业务口径前后不一致等问题。它可以使用,只是还无法被稳定地、规模化地、放心地使用。
也正因为如此,偏好数据与奖励信号才会在模型生命周期中占据独立位置。它们的任务无意教会模型“世界上有什么知识”,也无意教会模型“任务的标准答案是什么”;它们进一步规定:在多个候选行为都可以成立的情况下,什么更值得鼓励,什么必须被压低,什么在普通场景下可接受、但在高风险场景下不允许,什么虽然讨用户喜欢、却不符合业务规范。也就是说,偏好学习的重点不在补充知识,核心在于塑造价值排序 (Christiano et al. 2017; Ziegler et al. 2019)。
对负责数据设计、标注规范、训练接口与上线治理的团队来说,这意味着偏好数据不能被视作 SFT 数据的简单延伸。SFT 更像是在规定模型“会做什么”,偏好数据则是在规定模型“做这些事时,以什么方式做、优先满足谁、如何处理冲突、何时应该停下”。前者主要解决可用性,后者进一步解决可控性、一致性与组织适配性。很多团队在做完 SFT 后,会觉得模型已经“差不多可以了”;而真正成熟的团队会意识到,偏好阶段才是把抽象业务要求、风险边界和品牌风格转译成训练信号的关键工程环节。
本章面向需要把偏好学习从概念真正落到数据构造与训练接口的团队成员,系统讨论偏好数据的角色、偏好对与奖励模型的关系、过程奖励的设计、多目标偏好的聚合与 Pareto 权衡、偏好来源与监督模式、噪声与一致性治理,以及这些数据如何映射到 DPO、RM、RLAIF、PRM 等训练方法 (Lightman et al. 2024; Uesato et al. 2022)。我们尤其强调一个核心观点:偏好学习的定位不应被理解为“多做一轮人工反馈”,重点在于显式构建一套组织级的行为排序系统;奖励信号也不应被理解为训练时顺手加上的评分,其作用是把这套排序系统正式转换为模型可学习目标的关键接口。
关键词¶
偏好数据与奖励信号;监督微调;偏好数据;对齐数据;质量评估
学习目标¶
- 能够解释偏好数据为何决定模型的行为风格,以及监督微调之后仍需偏好对齐的根本原因。
- 能够区分成对偏好、标量奖励与过程奖励三类信号的定义、适用任务和数据要求。
- 能够对比直接偏好优化与奖励建模对“比较质量”与“尺度稳定”的不同依赖,并据此设计候选构造方式。
- 能够识别多目标偏好中的冲突,运用 Pareto 权衡思路设计多层奖励系统。
- 能够治理标注分歧、风格偏见与评分漂移,通过仲裁、复标、标注员校准和黄金集提升偏好数据可信度。
13.1 偏好数据的角色¶
13.1.1 偏好数据解决什么问题:风格、取舍与行为排序¶
SFT 可以让模型学会某类任务的基本回答方式,但它不一定能决定模型在多个可行答案之间如何取舍。SFT 的本质是模仿单个目标输出,鼓励模型逼近参考答案。然而真实世界里大量场景并不存在唯一答案——同一个问题可能同时存在更简洁的、更完整的、更谨慎的、更鼓舞用户的答案,它们都可以自洽,但组织未必会一视同仁。真正决定行为风格的,不是模型能否写出这些答案,而是这些答案之间它更容易走向哪一边。
行为风格不由某一句模板或语气词决定,而会在大量局部选择中逐渐固化为统计结果。一个模型被感知为”专业”,不靠它总说”以下从专业角度分析”,而来自它在大量边界场景中更倾向于保留不确定性、解释依据、说明限制条件。也就是说,风格是一个排序结果,而不只是一个表面特征。
从数据构造角度看,偏好数据决定行为风格,至少通过四个层面起作用:定义比较维度(真实性、帮助性、合规性、简洁性等)、定义维度间优先级(高风险任务中正确性压过流畅性)、定义冲突时的取舍方式、定义组织能接受的波动范围。偏好数据真正把抽象的”行为风格”变成了训练可见的局部比较事实。
偏好学习也把原本模糊的价值判断转化为可进入训练的监督形式。团队说”模型要更稳健”,这本身无法直接作为可训练标签;只有当同一个输入下,候选 A 给出肯定判断,候选 B 明确说明证据不足和限制条件,且标注系统持续把 B 判为更优时,”稳健”才被转译成了参数可感知的排序偏差。偏好数据的核心价值,在于把组织的隐性价值函数显式化——当正确性与自然度冲突时谁优先,当安全边界与用户体验冲突时谁优先,当完整性与简洁性冲突时谁优先。
行为风格的稳定性,依赖偏好分布的方向一致性。 风格不由单个样本决定,而来自样本群体反复强化出来的总体趋势。风格类行为不像知识学习——记住了就是记住了——它更像是在一片模糊空间里逐渐被”推”向某个方向。模型不会因为见过一句”高风险场景下应先说明限制条件”就自动迁移到所有相关任务,它真正学到的是哪些表达方式、哪些回答结构、哪些语气选择更容易得到正向反馈。
假设团队希望模型在高风险场景中始终先说明限制条件。如果这类样本只在训练集中零散出现,模型很难将其泛化;只有当这种偏好在不同主题、不同表达、不同难度层中被持续重复,模型才会学成稳定倾向。反之,如果训练集里一半样本奖励谨慎、一半奖励强势肯定,模型最终只会形成摇摆不定的混合策略——有时候谨慎,有时候武断,单看一条回答似乎都能解释过去,放在一起看却没有统一的行为重心。对于真实产品而言,这种”偶尔对但整体不稳”的状态,往往比单纯内容错误更难处理,因为它削弱的是用户对系统整体行为的预期。
偏好样本最怕方向杂。样本多而方向不稳,模型学到的只是”在不同情境下随机抽一种说法”;样本未必特别多但方向持续一致,模型反而更容易形成稳定的行为倾向。行为风格的成型,本质上是一种分布后果,而非若干金句的叠加。
Reward Hacking:当偏好信号只捕捉到表层特征。 这里需要警惕一种相反情况:如果偏好信号没有覆盖任务意图本身,模型并不会自动理解”为什么这个答案更好”,只会学习”什么样的输出更容易赢”(Reward Hacking)。工程中至少有四类常见表现:
- 格式投机:奖励模型重点学习”字段是否齐全””括号是否闭合”,模型就优先生成结构完整但内容空泛的答案——JSON 字段全部存在,值却全是”无法确定””建议人工处理”。
- 长度投机:标注员过度偏向短答案,奖励模型把”短”误学成”好”,模型在复杂问题上提前收束,不解释必要条件,不暴露不确定性。对于法律条款解释、医学风险说明等任务,高质量答案恰恰需要保留关键前提和边界条件。
- 语气投机:礼貌、积极的表达更容易被标为较优,模型学会用热情话术包装不充分的内容——反复说”你说得对””感谢你指出”,却没有真正定位错误来源和给出可执行修正。
- 安全模板滥用:模型把”套用安全模板”当成最稳妥的高奖励行为,不仅拒绝真正危险的问题,也拒绝本可安全回答的正常问题,在高风险领域表现为表面安全、实际不可用。
这些案例的核心教训是:格式应当服务于内容组织而非替代内容,简洁应当删除冗余而非删除依据,礼貌应当改善交互而非掩盖无效回答,安全应当控制风险而非变成无差别拒答。偏好数据必须把组织要求拆到样本层面——“专业、可信、自然、稳健”这些词本身不能直接训练模型,只有当它们被写进候选答案的比较规则里,模型才会接收到明确信号:什么情况下该更谨慎,什么情况下该更直接,什么情况下该优先说明边界。
13.1.2 为什么SFT后还需要偏好对齐:能力与策略的分工¶
一个常见误解是只要 SFT 数据足够丰富,偏好对齐就不再必需。但二者回答的问题根本不同:SFT 回答”模型应该学会产出什么”,偏好对齐回答”多个候选输出都能用的时候,究竟该偏好哪一个” (Askell et al. 2021; Ouyang et al. 2022; Bai et al. 2022a)。
SFT 本质上是点对点模仿,擅长建立任务能力;偏好对齐是候选间排序,擅长塑造价值顺序。SFT 后的模型常常会出现”过度帮助”(把能想到的内容全塞进去)、”假装确定”(流畅自信但缺乏边界声明)、”风格单一”(无法在高风险请求出现时切换到更规范的模式)等问题。很多在 SFT 中不容易表达的问题——“这个答案虽然没错但更冗长””信息虽全但边界声明不够””虽然自然但给人过度承诺的感觉”——都更适合通过偏好比较来表达。因为它们的本质不是绝对对错,而是相对优劣。
从功能分层看,SFT 更像建立基础技能库(把工具放进工具箱),偏好对齐更像建立调度原则(在多个可用工具中默认选哪一个)。一个模型既能写长答案也能写短答案,既能强势建议也能谨慎保留——SFT 让它”都会”,但并不自动决定它”更常选哪一种”。真实上线系统最怕的,不是模型不会,而是会但选错。
这种”会但选错”在离线测试里往往不显眼,因为离线评测更容易看出模型有没有答到点上,却不一定能暴露它在多种可行答案之间的取舍倾向。但产品体验里的很多”好不好用”,本质上不由能力上限决定,而由默认取舍决定。一个企业客服助手总把简单问题回答得很长,用户觉得效率低;一个医疗助手面对信息不全的症状总想补成完整答案却不先分流风险,它即便知道很多医学知识也仍然不安全。这类问题不属于能力空白,而是优先级排序偏差。
这也是为什么同一个基础模型,经过不同偏好数据塑形后,会呈现出非常不同的系统气质——有的更克制,有的更主动,有的先给结论,有的先交代条件。差别主要出在”默认怎么选”。偏好对齐真正处理的,不是”能不能做到”,而是”在多个都能做到的选项里,哪一种更值得被反复选中”。它给模型建立一种稳定的决策重心——没有这个重心,模型就容易在不同输入下表现出摇摆感:今天偏简洁,明天铺得很开;这次很谨慎,下次下结论很快。
因此,判断一个问题该放 SFT 还是偏好阶段,关键看它属于”不会”还是”会但老是选得不对”。前者是能力问题,后者是策略问题。把这两类问题分清,整个后训练流程才会变得有层次:先通过 SFT 让模型具备足够多、足够稳的能力接口,再通过偏好对齐把这些能力组织成更符合产品目标的行为顺序。SFT 解决的是能力底盘,偏好对齐解决的是策略一致性——模型从”能回答”进一步走向”会以你希望的方式回答”。
13.1.3 从人类偏好到业务偏好:冲突、翻译与标注落地¶
在偏好学习讨论中,”人类偏好”常被当作天然合理的目标,但对于企业级系统而言,真正需要建模的是多种偏好来源的叠加:普通用户的交互偏好、专家的专业判断、业务方的组织目标、风控合规的底线要求、品牌团队的语气一致性要求。它们之间有很大重叠,但绝不全面相同——用户偏好偏向自然、及时、少限制、像真人;业务偏好则要求边界清楚、承诺克制、信息可审计。用户可能喜欢模型在证据薄弱时给出明确建议,业务方则要求必须暴露不确定性。用户喜欢”像朋友一样”的对话,企业服务要求正式、稳健、可归责。
因此,偏好数据构造不能建立在”让标注员凭直觉选喜欢的答案”这种粗糙假设上。一个成熟的偏好体系必须先区分”体验偏好””专业偏好””合规偏好””品牌偏好”和”业务偏好”,再决定它们如何被聚合——否则”以用户为中心”可能演变成”以短期主观满意为中心”,损害系统长期稳定性。
也正是在这里,Pareto 权衡 变得需要重点关注。对于多目标系统而言,不存在唯一最优解——一个回答可能在礼貌性上较高但边界声明偏弱,另一个可能非常稳健却显得机械。业务真正要做的,不是抽象地说哪一个”更好”,而是依据场景判断:对于高风险任务,我们更愿意牺牲自然感换取安全一致性;对于营销场景,我们愿意给模型更大的表达自由。偏好数据的作用,正是把这种策略从口头讨论转变为可训练的排序证据。
业务偏好如果不进入标注规范,就无法进入训练。”更符合品牌调性””更像专业顾问””更稳健但不机械”这类原则性要求,必须继续向下拆分为标注时可操作的判断规则:”更符合品牌调性”可拆为是否避免过度口语化、是否保持统一称谓、是否避免夸大式承诺;”更像专业顾问”可拆为是否说明判断依据、是否暴露不确定性、是否给出条件限制。业务偏好进入训练之前,必须先经历一次”数据化翻译”——训练方法只是消费端,真正把业务目标转成监督结构的,是数据设计本身。
图13-1展示了相应的流程或结构。
图13-1:偏好数据到奖励信号流程图。
13.2 偏好对、标量奖励与过程奖励¶
pairwise preference、scalar score、process reward 的定义¶
偏好学习经常被概括为“给模型反馈”,但如果站在数据工程视角,这种说法过于模糊。真正进入训练时,反馈必须以明确的数据结构存在,而不同训练方法可接受的反馈形态并不一样。对数据团队来说,首先要搞清楚的不在于“我们要不要做人类反馈”,核心是“我们准备用什么形式表达反馈”。在当前主流实践中,最核心的三类形式分别是偏好对、标量奖励和过程奖励 (Uesato et al. 2022; Bradley & Terry 1952)。
偏好对(pairwise preference) 是最经典、也是目前最常用的一种形式。它的基本思想是在相同输入条件下生成两个或多个候选输出,然后由人类、模型或规则系统判断哪一个更好。最典型的数据结构可表示为:
(x, y_w, y_l)
其中,x 表示输入,y_w 表示胜出的回答,y_l 表示落败的回答。这里的“胜出”并不意味着绝对正确,表示在当前比较维度和当前任务上下文中更符合偏好。偏好对的最大优点在于,它避免了很多绝对打分中的尺度不一致问题。标注员未必能稳定判断一个回答值 3 分还是 4 分,但通常更容易判断在两个候选中哪一个更值得保留。也正因为如此,偏好对常常被视作低门槛、高鲁棒性的数据接口 (Bradley & Terry 1952)。
标量奖励(scalar score) 则是对单个输出赋予一个数值评分。它可表示为:
(x, y, r)
其中 r 可以是离散等级,也可以是连续值。标量奖励的直观性很强,尤其适用于需要训练奖励模型(Reward Model, RM) 的场景,因为 RM 的目标就是学习一个把输入与输出映射到实值分数的函数 (Ouyang et al. 2022)。从统一接口角度看,标量奖励还有一个优势:它更方便后续分析、排序、切阈值和多系统共享。然而,它也更容易引入评分漂移与尺度偏差。不同标注员对“4 分”和“5 分”的理解未必一致,不同任务池中的高分密度也可能不同,因此标量奖励在采集、校准和归一化上往往要付出更多治理成本。
过程奖励(process reward) 则针对的是另一类问题:有些任务的价值并不只体现在最终答案上,而体现在模型通向答案的过程中。对于这类任务,仅仅给最终结果打分往往不够,因为错误可能发生在中间步骤,且这些中间错误有时会被最终表面正确所掩盖。过程奖励的结构可以抽象为:
(x, {s_1, s_2, ..., s_t}, {r_1, r_2, ..., r_t})
这里 s_i 是中间步骤、推理片段、工具调用动作或局部决策状态,r_i 是对应步骤的局部奖励。过程奖励最适合长链推理、多工具调用、复杂执行规划、代码生成、Agent 工作流等任务,因为这些任务的成败并不仅由终态决定,而高度依赖中间行为质量 (Uesato et al. 2022)。
从数据系统角度看,这三种信号的区别不止体现为“存储格式不一样”,还体现在它们表达偏好时各自承担不同功能。偏好对更擅长表达相对排序;标量奖励更适合形成统一评分层;过程奖励则把反馈从终态拉回到中间过程。团队应当根据任务性质、标注能力和训练目标选择合适接口,而非把“奖励”理解成一个单一概念。
进一步说,这三者还对应了三种不同的问题意识。偏好对更适合回答“这两个输出哪个更该被保留”;标量奖励更适合回答“这个输出总体质量大概处于什么水平”;过程奖励更适合回答“这个输出是通过怎样的路径得到的,路径本身是否值得鼓励”。如果团队连问题意识都没有区分清楚,就容易出现一种常见情况:一边想解决复杂长链行为问题,一边却只采集整体满意度式标签,结果训练目标与任务结构根本不匹配。
下面的片段聚焦于三类偏好/奖励信号的最小数据格式(JSONL)。
同一条任务输入 x,可以用不同“反馈接口”记录监督信号。下面给出三种最小可用结构,便于落地到数据管线与标注平台。
代码清单13-1给出了JSON 数据示例。
{"type":"pairwise","prompt":"用户:请用三句话解释什么是DPO。","winner":"(更简洁且覆盖关键点的回答)","loser":"(更啰嗦且偏离重点的回答)","meta":{"task":"explain","dims":["helpful","concise"],"source":"human"}}
{"type":"scalar","prompt":"用户:请总结下面这段制度说明……","response":"(候选回答)","score":4,"meta":{"task":"summary","rubric":"v1","rater":"r_1027"}}
{"type":"process","prompt":"用户:把这个问题拆成三步并完成检索。","steps":[
{"state":"提出检索问题","output":"(step1文本)","reward":1},
{"state":"选择工具与参数","output":"(step2工具参数)","reward":0},
{"state":"整合证据并回答","output":"(step3最终回答)","reward":1}
],"meta":{"task":"rag_agent","unit":"step"}}
代码清单13-1:JSON 数据示例。
三类奖励信号分别适合什么任务¶
从任务类型来看,偏好对、标量奖励与过程奖励并不存在绝对优劣,它们更像是适合不同问题层次的三种接口。
偏好对尤其适合开放式生成、风格优化和相对取舍明显的任务。例如问答回复、摘要重写、邮件改写、拒答模板优化、客服话术选择、品牌表述统一等。这类任务中,团队真正关心的通常不在于“这条回答值多少分”,更接近于“在几个可接受答案里我们更想保留哪一种”。因此,用偏好对来表达相对优劣往往最自然。
标量奖励更适合需要统一排序和跨系统共享的场景。例如团队希望建立统一的候选评分器,对不同版本模型输出做排序,对线上回流样本做粗筛,对自动生成数据做质量控制,或者在多个任务之间共用一层奖励接口时,标量奖励的价值会更明显。它的优势不一定在初次标注上,而在后续平台化复用上。
过程奖励则适合那些“结果对了还不够,路径也必须对”的任务。例如复杂推理、RAG 检索规划、Agent 工具调用、代码修复、多步表单操作、工作流编排等。这些任务的关键问题,不止涉及最终输出是否可用,还包括中间步骤是否稳定、可解释、可迁移、可审计。此时只对终态做奖励,很可能把真正的风险藏起来。
直接偏好优化与奖励建模的数据要求¶
当偏好数据真正进入训练方法时,最常见的两条路线分别是直接偏好优化(DPO)和奖励建模(RM) (Stiennon et al. 2020; Rafailov et al. 2023)。这两条路线都依赖偏好数据,但它们对数据质量、数据格式和治理重点的要求并不完全相同。很多团队之所以在偏好学习阶段走弯路,很大程度上是因为没有先想清楚:我们的训练方法到底要消费什么样的数据。
DPO 的优点在于路径直接。它通常不要求先单独训练一个显式奖励模型,可以直接利用偏好对,让模型在参数更新过程中提高获胜答案相对于失败答案的相对概率。也就是说,DPO 将“我们更喜欢 A 而非 B”直接转化成训练目标。因此,对于 DPO 来说,最关键的数据资产就是高质量的偏好对。这里的关键不在于“每个答案到底值几分”,而在于比较关系是否可靠。只要胜负关系稳、候选质量有区分度、标注规则一致,DPO 往往就可以有效工作。
这意味着,数据团队在服务 DPO 时,重点应该放在候选生成机制、难例覆盖、胜负关系一致性和比较标准清晰度上。比如,若候选之间差距总是过大,DPO 学到的只是区分“明显好坏”的能力,难以适应线上那些细微却重要的风格差别;若候选之间差距总是过小,而规范又不明确,则会导致标注分歧,削弱训练信号。DPO 看似省去了一层奖励模型训练,但实际上对成对样本的构造质量要求较高。
而 RM 路线则试图先学得一个“评分器”。它希望模型不仅知道在 A 和 B 之间谁更好,还能对单个输出进行较稳定的质量估计。这类方法对数据的要求往往更高,因为它要求信号在某种程度上具有跨样本可比较性。即便起始数据是偏好对,团队通常也需要思考如何让这些相对比较足以约束一个稳定的评分函数。如果直接使用标量奖励,则更需要解决评分尺度不一致、任务分布不均衡、时间漂移等问题。
RM 的好处是,一旦训练出一个表现可靠的奖励模型,它就可以被复用于多种环节:候选排序、离线评估、策略优化、在线监控、模型互评辅助等。从平台化建设角度看,RM 更像是搭建了一层统一的“奖励接口”。但正因如此,它对数据体系的要求也更严。团队不能只关心谁赢谁输,还要关心为什么赢、赢了多少、不同场景中的分数是否可比、维度冲突如何聚合等更复杂的问题。
从工程实践看,如果团队当前最成熟的资产是大规模偏好对,并且目标是快速把模型行为拉向更优风格,那么 DPO 通常是更顺手的入口;如果团队希望建立一套长期可复用的奖励基础设施,让不同模型、不同训练阶段、不同评测环节共享同一套奖励表征,那么 RM 的价值会更高。但无论哪条路线,真正的前提都不止于“收集更多反馈”这么简单,还要先把偏好定义、候选生成、评分维度、噪声治理和版本管理这些数据基础工作做扎实。
DPO 更依赖“比较质量”,RM 更依赖“尺度稳定”¶
从数据治理角度,可以把 DPO 和 RM 的差异理解得更直白一些:DPO 更怕比较关系不稳定,RM 更怕评分尺度不稳定 (Stiennon et al. 2020; Rafailov et al. 2023)。
对于 DPO 而言,只要同一输入下的候选胜负关系足够清楚,很多问题都是可处理的。它并不太关心某个回答究竟是 8 分还是 9 分,而更关心在 A 和 B 之间,标注系统能不能持续一致地把更优的一方选出来。因此,DPO 的主要风险在于候选构造不好、难度分布失衡、胜负依据模糊、标注员标准不一。
而 RM 由于要学一个跨样本可泛化的评分函数,就必须面对另一个问题:不同样本、不同时间、不同标注员给出的分数能否被视作同一坐标系上的量。如果不能,奖励模型学到的就很难是质量函数,反而会变成混杂了人员差异、时间差异和任务分布差异的噪声函数。所以 RM 往往对校准、标准化、来源标记和分层建模要求更高。
这也是为什么很多团队会先用偏好对做 DPO 快速起步,再逐步建设更复杂的 RM 体系。前者解决“先把方向拉对”,后者解决“建立统一奖励基础设施”。两者并非互斥,常常对应不同成熟度阶段。
候选构造为什么是奖励信号质量的前提¶
无论使用 DPO 还是 RM,一个经常被低估的问题都是候选构造。很多团队把重点都放在“标注是否准确”上,却忽视了标注之前最关键的一步:候选答案本身是如何生成出来的。如果候选池质量失衡,再严格的标注也只能学到低分辨率偏好。
例如,如果候选 A 明显优于候选 B,标注当然容易,但这种样本只能教会模型区分粗粒度优劣;如果候选 A 与 B 极其接近,而规范又未明确冲突维度优先级,则会导致高分歧样本增多,训练信号反而变得脆弱。更理想的情况通常是:候选之间存在真实且业务重要的差异,但差异又不至于肉眼一看就完全集中在单个表面维度上。只有这样的样本,才能逼迫模型学会更细的行为取舍。
因此,候选构造其实是偏好学习的上游核心环节。候选从哪些模型来、差异如何控制、是否覆盖多种风格、是否包含边界冲突、是否刻意采集“看起来都可以但组织更偏向其一”的样本,这些都直接决定了后续奖励信号有没有信息量。
最终结果奖励与过程奖励:从”验收结果”到”监督行为”¶
很多团队在刚接触偏好学习时,默认只对最终输出做判断:这个回答总体上好不好。这当然是合理起点——摘要是否覆盖重点、分类是否正确、客服回复是否合规、拒答是否到位,这类任务的结果本身就是主要价值载体,终态奖励通常足够有效。
但在复杂任务中,仅看终态会出现两种典型问题。第一种是”蒙对”——模型通过不可靠推理、跳步或偶然猜中得出正确结果,只奖励终态会让模型强化”反正答对就行”。第二种是”表面可用”——最终输出看似满足要求,但中间过程违反了重要原则:未做必要检索、遗漏证据校验、调用工具顺序低效、在关键节点过度自信。终态奖励会把这些风险全部遮蔽。
过程奖励的意义就在于把监督信号向前移动,让模型不仅为”做成什么”负责,也为”怎么做成”负责 (Lightman et al. 2024; Uesato et al. 2022)。对于推理类任务,它可以鼓励逻辑步骤完整、错误中间结论被及时修正;对于工具调用类任务,它可以鼓励先检索后回答、先校验再执行。当然,过程奖励的代价是显著提高数据构造难度——团队需要先定义”过程单元”是什么(一步推理?一次工具调用?一个计划节点?),粒度过粗会退化为终态奖励,过细则标注成本急剧上升且一致性难保证。
从训练信号本质看,终态奖励更像”事后验收”——做完之后给整体评价;过程奖励更接近”行为监督”——对轨迹中的关键节点分别表达偏好。这一区别在复杂系统里尤其关键。在很多自动化场景中,系统风险不一定出在结果字符串本身,更多出在形成结果的路径中。例如 Agent 最终完成了任务,但中间曾有多余检索、错误参数调用或无证据推断,只是恰好没有在最终输出中暴露出来。如果只看终态,这种坏行为会被默许,模型会倾向于走”侥幸但省力”的路径——这种路径依赖比单次答案错误更危险,因为它意味着模型在策略层面形成了不稳健的偏好。
过程奖励解决的正是这种信用分配失真问题:将监督从任务末端向中间状态展开,让系统对轨迹关键节点分别表达偏好。一个检索动作是否必要、一次工具调用是否合规、一个中间结论是否有证据支撑——这些原本被终态奖励掩盖的行为特征,在过程奖励框架中都可以被显式纳入评价。模型学到的不只是结果分布,更是行为分布。
更进一步,过程奖励承担着”把隐性规范显性化”的作用。金融问答中是否引用了可验证依据,医疗辅助中是否在不确定时表达保留,企业 Agent 是否遵循审批流程和权限边界——若只依赖终态奖励,这些规范只能作为模糊的整体偏好存在;而过程奖励能把它们落到更具体的行为节点上,让”谨慎””合规””有依据””不跳步”成为可打分、可比较、可优化的中间行为特征。
当然,过程奖励不能取代终态奖励,二者互补:终态奖励告诉模型”什么结果值得追求”,过程奖励告诉模型”什么路径值得信任”。二者结合,训练系统才能同时优化结果有效性和过程可靠性。一个高质量的训练体系,不能只奖励”碰巧答对”,而应逐步鼓励那些可复现、可审计、可泛化的行为方式。
如何定义“过程单元”是过程奖励设计的第一道难题¶
过程奖励在概念上听起来很自然,但一落到数据构造就会遇到第一个核心问题:什么算一步?不同任务中,“过程单元”的划分方式会显著影响后续标注质量和奖励稳定性。
在推理任务中,过程单元可以是一条推理陈述、一个逻辑跳转、一个中间结论;在工具调用任务中,过程单元可以是一次检索动作、一次参数填写、一次 API 调用;在多步执行任务中,过程单元还可以是一个计划节点、一个子任务完成状态、一次状态转移。不同定义方式会让同一条任务链呈现出完全不同的监督粒度。
如果粒度过粗,过程奖励就会退化成终态奖励的近似版本;如果粒度过细,标注成本会急剧上升,且一致性更难保证。因此,过程奖励不能简单理解为“多标一点中间步骤”,前提是先建立一套稳定的行为切分框架。没有这个前提,过程监督很容易变成高成本、低稳定度的数据工程。
多目标偏好、过程奖励与 Pareto 权衡¶
在真实生产系统中,偏好很少呈现为单目标结构。一个模型可能同时被要求正确、帮助、有边界、简洁、稳定、符合品牌口径、低延迟、少幻觉、少拒答误伤,并在某些场景下提供足够解释性。问题在于,这些目标不会永远同步增长。很多时候,增强某个维度会天然牺牲另一个维度。偏好学习真正困难的地方,也正是在于这种多目标结构。
如果团队还停留在单一“总分”的思路里,就很容易出现两个问题。第一,多个目标被粗暴加总,导致团队不知道模型为什么变好了,也不知道它在哪个维度上变差了。第二,训练集里的冲突被平均掉了,模型学不到清晰的取舍策略,只能在模糊信号下形成不稳定行为。因此,在偏好数据设计中引入多目标偏好,不仅是更精细的做法,更是处理真实业务冲突的必要条件。
多目标偏好意味着团队除记录“哪个候选整体更好”外,还进一步保留多个评价维度上的判断信息。例如在一个企业问答场景里,候选答案 A 可能在帮助性和自然度上更优,但在边界清晰度上较弱;候选答案 B 可能更稳健,但略显僵硬。此时,单纯打一个总体胜负标签,会把冲突隐藏起来;而如果能同时记录各维度判断,就能为后续聚合策略、奖励模型训练和问题分析提供更高分辨率的信息。
这时,Pareto 权衡 就成为偏好学习中不可回避的概念 (Roijers et al. 2013; Deb et al. 2002)。对多目标系统而言,并不存在唯一的“绝对最优答案”;系统中会出现一组在不同目标间互不支配的候选解,也就是 Pareto 前沿。位于前沿上的答案,通常意味着你如果想进一步提升其中一个目标,就必须在另一个目标上做出牺牲。对于数据团队来说,重点不在消灭这种前沿,而在于明确组织愿意落在哪个位置。也就是说,团队必须把“我们在什么场景下更愿意牺牲自然度换取稳健性”“在什么任务下更愿意牺牲一些简洁性换取更完整解释”这类问题正式写进偏好规范和数据接口。
过程奖励与多目标偏好天然具有耦合关系。很多目标并不只体现在终态,而体现在过程。例如“先证据后结论”是一种过程偏好,“高风险时先声明限制再给建议”是一种过程偏好,“调用工具前进行参数校验”也是过程偏好。也就是说,团队如果只在最终答案层面做多目标评分,却不记录过程中的局部优劣,就很难真正支撑复杂系统的 Pareto 权衡。因为很多关键目标压根就不在最后一句话里,而藏在生成路径中。
因此,从偏好学习的成熟度看,团队通常会经历一个逐步升级过程:先从整体偏好对入手,解决“总体上谁更好”;再引入多维评价,解决“为什么更好”;随后在复杂任务中加入过程奖励,解决“怎样才算以正确方式变好”;最终形成多目标、分层次、可解释的奖励信号系统。这也正是偏好学习从概念走向工程的关键标志。
下面的片段聚焦于多目标偏好标注的“维度化记录”。
当你不想被“总分”掩盖冲突时,可以在数据中同时保留维度标签与聚合策略(聚合策略可以在训练/采样阶段再决定,而不必在标注时一次性定死)。
代码清单13-2给出了JSON 数据示例。
{
"type": "pairwise_multi_dim",
"prompt": "用户:我最近胸口有点闷,要不要吃药?",
"candidates": {
"A": "(更自然,但缺少风险分流与就医提示的回答)",
"B": "(先做风险提示与信息澄清,再给一般建议的回答)"
},
"judgement": {
"overall_winner": "B",
"dims": {
"safety_boundary": "B",
"helpfulness": "B",
"naturalness": "A",
"conciseness": "A"
},
"reason_tags": ["高风险先分流", "信息不足先澄清"]
},
"meta": {"scenario":"medical","risk_level":"high","policy":"medical_v2"}
}
代码清单13-2:JSON 数据示例。
多目标偏好不能只靠“总分”掩盖冲突¶
很多团队在设计偏好数据时,会想用一个总体分数把所有维度都压缩进去,认为这样更简洁、更方便训练。但问题在于,只要系统目标真正是多元的,总分就天然会丢失关键信息。它最多告诉你“整体上似乎更好了”,却无法告诉你究竟是帮助性提升了、合规性下降了,还是简洁性提高了但解释性被牺牲了。
总分的优点是简单:容易接训练流程,也方便做版本对比。但它的问题也很直接。所有差异都压成一个数字后,团队很难判断模型到底在哪些方面变好了,又在哪些方面付出了代价。模型也许确实更像“高分答案”了,但这个高分究竟是因为它更有帮助,还是因为它更会写长篇完整回答;究竟是因为它更安全,还是因为它学会了大量模糊表达来回避风险;究竟是因为它更符合品牌语气,还是因为它牺牲了效率去换取更柔和的措辞,这些都很可能被总分一起抹平。
这种信息丢失在早期也许还能容忍,但一旦系统进入精细优化阶段,就会迅速成为瓶颈。因为团队无法判断训练信号究竟在推动哪一类变化,也无法判断某次版本更新是否把系统推到了错误的权衡点上。也正因此,多目标偏好数据往往需要保留维度标签、维度评分或者至少保留偏好依据,而非只留下一个粗糙的最终胜负。
真实工程里,很多问题都不能简单理解为“某个答案绝对更好”,经常表现为“它在某个维度上更好,在另一个维度上却更差”。比如客服场景里,一个回答可能更热情、更完整,但也更啰嗦,导致下一步操作被埋在中间;法务场景里,一个回答可能表达更清楚,却在不确定条件下说得太满;医疗场景里,一个回答可能更克制、更安全,但用户会觉得它信息量不足,甚至没有回答到自己最关心的点。这些都不属于简单的优劣关系,而体现为多目标之间真实存在的拉扯。如果最后只留下一个总分,团队看到的就只是“这个答案赢了”,却看不到它到底是凭什么赢的,又付出了什么代价。
这也是为什么很多系统在后期优化时,会出现一种让人很困惑的现象:线上主观感觉变了,用户反馈也变了,但离线总分并没有明显问题。模型可能变得更安全了,却也更像套话;可能变得更简洁了,却丢掉了必要解释;可能更像品牌助手了,却在复杂问题上显得避重就轻。只看总分时,这些变化很容易被平均掉,甚至被错误地解释成“整体差不多”。可对真实产品来说,用户感受到的往往不只是平均值,更多是具体哪一类体验在变差、哪一类边界在松动。
总分还有一个更隐蔽的问题,就是它会迫使团队提前做很多本来不该被粗暴合并的价值判断。比如帮助性和合规性发生冲突时,到底谁更重要;简洁和解释性拉扯时,应该优先哪一边;亲和力和专业感不能同时做满时,系统更该保什么。表面上看,把这些都折成一个总分,好像是让训练更直接了;实际上却等于在数据层悄悄完成了一次复杂权衡,而且这种权衡往往既不透明,也不稳定。不同标注员、不同业务团队、不同阶段的产品目标,都会让这个“总分”背后的含义发生变化。数字还是同一个数字,但它代表的东西已经发生了变化。
更麻烦的是,一旦只看总分,团队就很难对冲突做有意识的管理。假设一个系统当前最重要的目标,是在不明显损伤帮助性的前提下,把高风险场景中的边界收紧。如果数据里只记录最终胜负,那么训练后即便模型确实更保守了,团队也很难确认它是否同时把大量本来可以清楚回答的问题也一起答得更虚了。反过来,如果一个版本追求更自然、更像真人,结果模型开始在本该克制的场景里说得太满,单看总分也未必能立刻暴露出来。因为总分只能告诉你“整体偏好向哪边倾斜”,却不能告诉你这种倾斜是否以牺牲某个关键维度为代价。
所以,多目标偏好数据真正要保留下来的,不只是结果,还有结果背后的结构。至少要让团队知道,这次偏好判断主要依据的是什么,是因为更准确、更简洁、更安全,还是因为它在语气和格式上更符合要求。只有这些信息保留下来,后面的训练、分析和回归才有抓手。否则每次模型一变,团队都只能猜:这次到底是哪里被推过头了,哪里又没推到位。
在很多情况下,保留维度信息并不意味着一定要把体系设计得非常复杂。关键不在于标签有多少,而在于最重要的冲突不能被抹平。比如至少区分帮助性、合规性、简洁性、解释充分性这些高频拉扯维度;或者在偏好标注里要求标注员注明“为什么选A不选B”,让训练后分析还能回到原始依据。这样做的意义不在于让表格更丰富,而在于让团队在版本迭代时知道自己到底在改什么。总分可以作为汇总视角,但不能代替结构本身。
说到底,多目标偏好学习最难的地方,从来不在于把一堆维度凑在一起,核心在于承认它们本来就不会永远同向变化。有些时候,更安全就会显得更保守;更简洁就可能少了一层解释;更亲和就未必最有效率。系统优化真正需要的,不应是装作这些冲突不存在,而在于把冲突保留下来、看清楚、再有意识地决定该往哪边偏。如果只靠一个总分把所有张力都压平,训练当然会变得省事一些,但团队也会更快失去对系统行为变化的解释能力。到了那时,分数还在涨,模型却已经慢慢偏离了原本想要的方向。
Pareto 权衡对数据团队意味着什么¶
Pareto 权衡并不只是优化理论里的术语,对数据团队来说,它意味着一个现实的问题:你不可能同时把所有目标都推到高要求,所以必须明确哪些牺牲是可接受的,哪些牺牲是不可接受的。
例如,在高风险问答中,团队可能愿意牺牲一部分自然度来换取边界清晰;在营销文案中,团队可能愿意接受一定程度的风格张力,以换取品牌表达更鲜明;在企业助手中,团队可能更看重可审计性而非陪伴感。所有这些都超出训练算法自身能够决定的范围,必须先由数据团队通过偏好规范和样本设计表达出来。
因此,Pareto 权衡在偏好学习里的真正含义不在于画一条漂亮的前沿曲线,而在于要求团队把“我们到底想把系统推向哪里”这件事从口头偏好变成明确的数据选择。
从单一偏好到多层奖励系统的演化¶
从工程成熟度来看,偏好学习往往很难一步到位地进入多目标、过程化和高分辨率阶段。更常见的路径是先建立单一偏好对体系,让模型先学会基本排序;再逐步引入维度化评价,让系统不只是知道谁更好,还知道为什么更好;随后在高价值复杂任务中增加过程奖励,让系统学会“以正确方式变好”;最后再通过分层训练和版本治理,把这些不同类型的信号整合成长期可维护的奖励基础设施。
这种演化路径很重要,因为它说明偏好学习不应被看作一套静态数据格式,它是一种逐步升级的工程能力。团队不需要一开始就把所有复杂结构都做全,但必须明确自己最终要走向哪里。否则,早期的数据体系很容易因为过度简化而在后期成为瓶颈。
图13-2展示了相应的流程或结构。
图13-2:多目标偏好权衡示意图。
13.3 偏好来源与监督模式¶
专家标注、普通用户反馈、模型互评、规则裁判¶
偏好信号从哪里来,是偏好学习设计中最根本的问题之一 (Ouyang et al. 2022; Bai et al. 2022a; Lee et al. 2023)。因为信号来源不仅决定采集成本和规模,也决定奖励系统最终反映的是谁的价值判断。现实中,偏好数据的来源通常可以概括为专家标注、普通用户反馈、模型互评与规则裁判四类。它们各有价值,也各有明显局限。对于需要真正落地的团队而言,关键从来不在于在四者中选一个“最先进”的,重点是理解它们各自能承担什么角色、不能承担什么角色。
专家标注 适合那些知识门槛高、风险高、判断标准强依赖专业训练的任务,例如医疗建议、法律解释、金融合规、复杂企业流程问答等。在这些任务中,很多“表面像对的答案”其实隐藏着严重问题,普通用户甚至一般标注员并不容易识别。专家的最大价值,不只是能判断哪一个候选更优,更在于能够说明优劣依据,把隐性专业标准显式化。对数据团队来说,专家标注往往承担着“定标”的角色,也就是确定某类任务的高置信度基准。其缺点同样明显:成本高、速度慢、覆盖有限,而且不同专家之间也可能存在风格差异甚至理论分歧,因此专家信号虽然珍贵,却不可能单独支撑大规模偏好体系。
普通用户反馈 则与专家形成互补。它最接近真实产品使用场景,可以大规模反映终端体验,例如回答是否顺手、是否真正帮助完成任务、语气是否舒服、解释是否到位。很多帮助性、可读性和交互流畅性问题,用户反馈比专家更敏感。但用户反馈的问题也很突出:它是高度混合的信号。用户喜欢一个答案,可能是因为它更自然、更快、更符合个人立场,未必是因为它更正确、更安全、更符合组织要求。因此,用户反馈更适合作为体验层偏好,而不应在高风险任务中直接作为唯一监督来源。
模型互评 是近年来扩展偏好数据规模的常见手段 (Bai et al. 2022b; Lee et al. 2023)。它通常表现为:多个模型生成候选,再由另一个模型扮演裁判,对候选进行比较、评分或解释。它的优点是极大降低了冷启动成本,尤其适合做初筛、扩充长尾覆盖、构造困难对比样本、给人工标注提供优先队列等。对数据团队来说,模型互评的价值不在于“取代人类”,而在于提升偏好数据生产效率。但它的问题也较为明显:模型裁判会继承自己的训练偏见,可能系统性偏爱某些表述方式、某种语言风格、某类结构化模板,甚至会因为对自己熟悉的表达更宽容而放大同质偏差。因此,模型互评常常适合作为辅助监督,而非高风险场景下的最终裁决者。
规则裁判 则把一部分可程序化表达的判断从主观偏好中剥离出来。它适用于格式正确性、必填字段完整性、敏感词与禁止内容检测、工具调用参数校验、长度阈值控制、规则违规检测等任务。规则的优势在于一致性极高、可审计、成本低,且在合规和过程约束中有价值。但规则的覆盖面天然有限,它只能判断那些能够被显式编码的约束,无法替代对帮助性、自然度、真正正确性等复杂质量维度的判断。
因此,一个成熟的偏好系统通常不会是单来源结构,而采取分层组合。专家负责高风险与高价值任务的定标,普通用户反馈真实体验,模型互评负责规模扩充与预排序,规则裁判承担刚性边界检查。数据团队真正要做的,是为每一类来源定义权重、适用场景和与其他来源的冲突处理机制,而非抽象地说“我们用人类偏好”或“我们用 AI 反馈”。因为“偏好来源”本身就是奖励系统设计的一部分。
在线偏好、离线偏好与合成偏好的混合¶
除了按来源分类,偏好数据还可以按照产生时机与构造方式,分为离线偏好、在线偏好和合成偏好。这三种形式在一个成熟系统中往往是共存的,并且承担不同生命周期角色。
离线偏好 通常是偏好学习的起点。团队先构建一批输入任务,再用一个或多个候选模型生成多个输出版本,然后组织人工比较、评分或过程审查。离线偏好的优点在于可控性强:任务可以精心采样,候选可以刻意设计难度分布,标注环境稳定,质检流程清楚,也便于建立黄金集和首版标注规范。对于偏好学习早期阶段,离线偏好几乎是不可替代的,因为团队需要先在一个干净、可分析、可复查的环境中学会“如何定义偏好”。
在线偏好 则来自产品上线后的真实交互行为,例如点赞、点踩、采纳、重试、继续追问、复制答案、人工转接、放弃任务等。它反映了模型在真实分布中的表现,也能最快发现模型在新任务、新用户群、新业务场景中的偏移问题。在线偏好最大的价值是鲜活和及时,它能让数据团队看见离线集之外的真实反馈结构。但它的噪声也最高:并非每个用户都会反馈,会反馈的人群也不代表平均用户;很多行为信号是弱标签,无法直接映射到质量判断;更复杂的是,线上行为受到 UI、交互节奏、任务上下文等诸多非内容因素影响。因此,在线偏好通常适合用来做趋势监控、样本回流、候选池扩充和在线校正,而不适合不加处理地直接作为高置信度训练标签。
合成偏好 则是介于人工与自动之间的扩展手段 (Bai et al. 2022b; Lee et al. 2023)。它可能来自模型裁判生成的比较结果,也可能来自规则派生、历史日志重组、自动构造难例对、或者根据已有标量评分转换出的成对样本。合成偏好能显著提高数据生产效率,尤其适合在冷启动阶段快速形成初始偏好语料,或在某些低风险维度上大规模补足覆盖面。但合成偏好必须明确边界:它更像一种“可用但需谨慎使用”的辅助信号,而非天然等价于人工高质量偏好。特别是在高风险场景中,合成偏好不应替代人工与专家定标,只能在明确信心等级的前提下作为补充。
真正稳健的偏好数据体系,通常采用“离线打底、在线校正、合成扩充”的混合模式。离线数据提供结构清晰的基准,在线数据提供新鲜的分布修正,合成数据提供规模与覆盖。对数据团队来说,关键不在三选一,重点是为三者建立清晰的协同关系:哪些任务优先采离线,哪些线上信号可以回流成离线标注池,哪些合成信号只用于候选筛选而不直接进主训练集,哪些来源只能做弱监督不能做黄金标注。只有这样,混合偏好系统才不会变成来源混乱、置信度不明、难以解释的“大杂烩”。
高风险场景的偏好标注流程设计¶
在高风险场景中,偏好标注的含义与普通对话场景截然不同 (Askell et al. 2021; Bai et al. 2022a; Liang et al. 2022)。这里的关键已从“哪个答案更讨人喜欢”,转向“哪个答案在责任、专业性、边界控制和风险暴露上更可接受”。因此,高风险偏好数据不能沿用轻量级标注思路,而必须被设计为一种可审计、可追踪、可复核的流程化系统。
首先,高风险任务的偏好定义必须前置,而不能靠标注员现场自由发挥。团队需要在标注开始前,把任务拆分成可执行维度,例如事实正确性、是否越权、是否体现限制条件、是否给出高风险建议、是否遗漏必要提示、是否应该拒答或转人工等。这些维度不仅要写进标注规范,还要在必要时体现在标注界面和样本元信息中。否则,所谓偏好标注最终只会变成“凭感觉选一个更像样的答案”,而这种结果在高风险系统中几乎没有治理价值。
其次,候选生成阶段就应当纳入规则初筛。明显违规、明显漏关键信息、明显不完整或明显不符合最低业务格式要求的候选答案,不应进入高成本专家比较环节。这样做一方面是节约标注成本,另一方面也是在训练前就建立一层底线过滤,避免高风险样本池被低质量噪声污染。
进入人工标注阶段后,高风险任务通常不适合只做简单的“二选一”。更合理的方式是要求标注员在比较胜负的同时,记录关键判定依据,或至少标记主要胜负维度。例如这个答案获胜是因为更准确、边界更清楚、少越权还是过程更可审计。原因信息并不只是为了事后分析,它会直接影响未来是否能做多目标偏好聚合、奖励模型解释和标注员校准。
此外,高风险偏好体系必须内置仲裁机制。对于分歧较大的样本、触发关键规则冲突的样本、涉及重大版本边界的样本,不应简单采用多数投票,而应进入高级标注员或领域专家仲裁流程。仲裁的价值不仅是给出最终标签,更重要的是沉淀争议案例,把模糊边界转化为新的规范条款或黄金集样本。对于数据团队而言,这种“用争议反哺规范”的闭环,才是高风险标注体系成熟的标志。
最后,高风险偏好数据必须带有丰富的元信息。这些信息至少应包括任务类型、风险等级、候选来源、是否经过规则初筛、标注员身份层级、分歧情况、仲裁状态、主要胜负理由、是否纳入黄金集等。因为在高风险系统中,数据的价值不止体现在训练效果,还体现在上线后的可解释性和责任链追踪。一个没有元信息的“偏好对”,在低风险场景中也许还能用,在高风险系统里则几乎失去治理意义。
13.4 噪声与一致性治理¶
标注分歧、风格偏见与评分漂移¶
偏好数据乍看上去比事实标注更简单,因为它似乎只需要回答“哪个更好” (Cohen 1960; Dawid & Skene 1979)。但恰恰因为它涉及价值判断、风格选择和目标冲突,所以噪声来源远比很多团队预期的更复杂。偏好学习真正困难的地方,不在于收不到反馈,而在于收到的反馈未必一致、未必稳定、未必真正对应组织想学的那套偏好。这也是为什么噪声与一致性治理会成为偏好数据工程中的中心议题。
最常见的问题是标注分歧。对于一些样本,分歧的原因很直接:两个候选本来就非常接近,优劣很难判断。但更值得警惕的是那种“重复出现的结构性分歧”。例如,有的标注员长期偏爱更简洁的表达,有的标注员长期偏爱解释更充分的答案;有的人更重视礼貌与完整性,有的人更看重是否直达结论。这样的分歧并不只是人员差异,它往往意味着偏好规范中仍有关键维度没有被明确排序。如果不处理,模型最终很难学到稳定的组织偏好,反而会学到“平均化的混合口味”。
第二类问题是风格偏见。偏好标注非常容易受到表面特征影响。更长的回答常常被误判为更认真、更全面;更自信的语气常常被误判为更专业;结构更工整的文本容易被高估,即便其中的实质内容并没有更强。这种现象在人类标注中常见,在模型裁判中同样常见。久而久之,系统就会把“听起来像好答案”的表面风格学习成“就是好答案”的本质特征。对业务系统而言,这种偏差尤其危险,因为它会让模型越来越擅长伪装质量,而非提升真实质量。
第三类问题是评分漂移。它在标量奖励中尤为突出,但在偏好对中也可能以隐性方式出现。随着标注时间推移、团队扩大、规范迭代、产品目标变化,原本相似质量的样本可能会被打上不同尺度的标签。某个月的“高分”在另一个月可能只是中等;某个任务池中容易获胜的风格,在另一个任务池中却不再占优。评分漂移会直接破坏奖励信号的可比性,使得奖励模型学习到的是时间和人群差异,而非稳定的质量函数。
此外,偏好系统还会遭遇候选构造偏差、任务分布偏差、来源混杂偏差等问题。如果候选答案总是由同类模型生成,模型互评就会在一个狭窄风格空间里打转;如果训练集中某类热门任务占比过高,奖励模型就会把“常见任务偏好”误学成“普适偏好”;如果用户反馈、专家反馈、规则信号和模型裁判结果被混在一起而不加区分,训练目标就会变得模糊甚至内在冲突。
因此,偏好数据治理的重点不应停留在幻想完全消除噪声上,而应先识别噪声类型,再决定哪些噪声应靠流程治理,哪些应靠建模处理,哪些只能通过版本隔离与来源分层来缓解。只有承认偏好数据本质上是带噪观测,而非绝对真值,团队才能建立真正可靠的奖励信号系统。
仲裁、复标、标注员校准与黄金集¶
既然偏好噪声不可避免,那么数据团队需要的就不应是一次性“清洗”,而应是一套持续运行的一致性治理机制。在实践中,最有效的四个抓手通常是仲裁、复标、标注员校准和黄金集建设。它们分别对应高分歧问题、稳定性测量、人员对齐和系统锚点这四个层次。
仲裁 机制用于处理那些靠简单多数投票不足以解决的问题。并非所有分歧都值得进入仲裁,但凡是涉及高风险场景、核心指标、版本边界、风格大幅切换或专家意见冲突的样本,都应当进入更高层级复判。仲裁的作用并不只是“给一个最终答案”,更重要的是把争议背后的原因结构化地沉淀下来。比如,某类任务中标注者总在“自然表达”和“边界清晰”之间摇摆,那么团队就需要明确:在这个任务下,哪一项优先级更高,什么程度的自然化是允许的,什么程度就算边界模糊。仲裁的真正价值,在于把高成本争议转化为可复用规范。
复标 则是测量数据稳定性的关键手段 (Cohen 1960; Dawid & Skene 1979; Snow et al. 2008; Aroyo & Welty 2015)。团队不能只看第一次标注结果是否整齐,还需要周期性抽样,让样本在不同时间、不同批次甚至不同标注员群体中被重新比较。通过观察胜负翻转率、一致率变化、分数分布漂移,团队才能判断偏好定义是否稳定。如果某类任务在复标中反复翻转,那根源通常不在“标注员太差”,更可能是任务定义或维度排序本身存在模糊地带。复标因此不仅是质量检查,更是规范诊断工具。
标注员校准 的意义,则在于尽可能减少人为尺度差异。对于偏好数据,很多错误并非来自粗心,而来自理解框架不同。一个成熟的标注系统通常不会让标注员直接上岗,而会先通过一批代表性样本进行训练,让标注员理解关键维度、典型边界和常见误判模式。尤其在多目标偏好场景中,校准必须明确告诉标注员:当真实性与流畅性冲突时如何选,当帮助性与合规性冲突时如何选,当两个候选各自在不同维度占优时如何做整体判断。没有这一步,标注系统很快就会被个人习惯主导。
黄金集 则是整套一致性治理体系中的锚点。黄金集不能理解为一堆“完美样本”,它是一批经过专家确认、规则校验、分歧仲裁并附有明确判定依据的高置信度样本。它既可以用来培训新标注员,也可以用来监控老标注员是否发生漂移;既可以用来比较不同版本偏好规范是否改变了价值函数,也可以在训练中作为高权重样本使用。对于奖励模型来说,黄金集更像是一组长期稳定的参考坐标,它不能替代大规模数据,但能让整个系统不至于在噪声中漂移失锚。
从工程角度说,仲裁、复标、校准和黄金集不应作为附加流程,而应被视为偏好数据生产的一部分。因为偏好学习训练出来的不只包含一个模型,还包含一整套价值排序函数。如果这一函数的标定过程不稳定,那么训练方法再先进,也只是在放大不稳定监督。
下面的片段聚焦于计算“标注一致率/翻转率”的一个简化脚本。
偏好对天然是“比较问题”,很适合用一致率来做日常体检。下面脚本输入同一批样本的两次标注结果,输出一致率与高分歧样本ID列表(用于进入仲裁池)。
代码清单13-3给出了流程示例。
from collections import Counter
from typing import Dict, List, Tuple
def agreement(a: Dict[str, str], b: Dict[str, str]) -> Tuple[float, List[str]]:
"""
a/b: {sample_id: winner_candidate_id}
"""
common = sorted(set(a) & set(b))
if not common:
return 0.0, []
same = [sid for sid in common if a[sid] == b[sid]]
rate = len(same) / len(common)
disagreed = [sid for sid in common if a[sid] != b[sid]]
return rate, disagreed
if __name__ == "__main__":
# 演示数据:同一批样本两次标注
round1 = {"p1": "A", "p2": "B", "p3": "B", "p4": "A"}
round2 = {"p1": "A", "p2": "A", "p3": "B", "p4": "B"}
rate, disagreed = agreement(round1, round2)
print("一致率:", rate)
print("需仲裁样本:", disagreed)
代码清单13-3:流程示例。
偏好数据的去偏与可信度建模¶
当团队接受了“偏好数据天然带噪”的事实之后,下一步就不应再把所有样本视为同等可信。更合理的做法是:在流程治理之外,再对样本本身进行可信度建模,并在必要时做系统性的去偏处理 (Dawid & Skene 1979; Northcutt et al. 2021)。因为偏好数据无法被视作二值事实,它是一类带有来源、上下文、难度和判断稳定性的观测值。对数据团队来说,这意味着训练集不应只是一个简单的样本列表,而应当是一组带权重、带置信度、带来源标签的奖励信号集合。
最直接的思路,是根据样本属性为其赋予不同权重。例如,一个来自专家一致判断、规则层强支持、候选差距清楚、历史复标稳定的偏好对,应当比一个来自模型互评、分歧较大、候选非常接近的样本拥有更高训练权重。同样,一个经过仲裁后进入黄金集的样本,也应当与普通自动扩充样本区别对待。这样做的意义在于,训练过程会从把所有监督都当作绝对真值,转向显式承认不同样本在“可信程度”上的差异。
除了样本级权重,去偏还常体现在评分归一化与分层建模上。对于标量奖励,团队往往需要按标注员、任务类型或时间窗口做尺度校正,避免奖励模型把不同评分习惯混成一条虚假的统一刻度。对于偏好对,团队则可以按来源分层训练,或在训练与评估中保留来源标签,以观察模型是否过度拟合某一类偏好来源。对于过程奖励,去偏更复杂,因为过程片段的颗粒度与切分方式本身就可能引入系统误差。此时,团队不仅要控制局部奖励值,还要控制“什么算一步”的定义方式。
可信度建模的另一个重要维度,是难度感知。不同偏好样本的信息量并不相同。两个差距较为明显的候选,虽然容易标注,但对提升模型细粒度判断能力帮助有限;两个非常接近却在关键边界上不同的候选,信息量往往更大,却也更容易产生分歧。一个成熟的数据体系应当同时保留这两类样本,并在训练中区别对待:前者帮助模型建立基本排序方向,后者帮助模型学会真实线上最关键的微妙取舍。
更进一步,去偏还涉及采样策略。很多团队在扩充偏好数据时,容易无意中把模型最擅长的任务采得更多,把最容易判断的样本留得更多,把最明显的差例标得更多。这样虽然会让离线指标看起来快速改善,却会导致模型缺乏对困难场景、边界冲突和细粒度风格差异的敏感性。也就是说,采样偏差本身就是奖励信号的一部分偏差。数据团队需要做的,不止是清洗已有噪声,还要从数据入口处就设计多样化、分层化、覆盖关键冲突区的采样策略。
总之,偏好数据的治理不应停留在“提高一致率”这一层,而应进一步走向“对不一致与不确定性进行建模”。只有当团队能够识别哪些样本更可信、哪些来源更稳、哪些任务更容易漂移、哪些冲突更值得被保留而非强行平均,奖励信号才真正具备长期可维护性。
表13-1汇总了本节的关键对象、工程要点与复核口径。
表 13-1:奖励噪声来源与治理动作表。
| 噪声来源 | 典型表现 | 对训练的影响 | 治理动作 |
|---|---|---|---|
| 标注分歧 | 同一样本胜负频繁翻转 | 削弱偏好信号,降低 DPO/RM 稳定性 | 建立仲裁池、复标、提高任务说明颗粒度 |
| 风格偏见 | 偏爱更长、更自信、更像模板的回答 | 奖励模型学到表面风格而非真实质量 | 维度拆分标注、盲化部分表面属性、引入反例集 |
| 评分漂移 | 不同时间/团队打分尺度不一致 | 标量奖励不可比,RM 失真 | 周期校准、黄金集回测、分标注员标准化 |
| 候选生成偏差 | 候选答案质量差距过大或过小 | 训练只会分粗粒度优劣,泛化差 | 控制候选难度分布,混入“细粒度接近样本” |
| 来源混杂 | 专家、用户、模型裁判信号未区分 | 奖励目标不稳定,冲突被隐含平均 | 增加来源标签、分层加权、分任务建模 |
| 规则误杀或漏检 | 规则系统判断与人工偏好冲突 | 合规目标表达失真 | 规则审计、人工复核、规则与人工分层决策 |
| 任务分布偏置 | 某类高频任务主导整体数据集 | 模型把任务频率误学成偏好 | 分桶采样、版本配额控制、按场景分评估 |
| 过程切分不一致 | 同类任务步骤边界划分不同 | PRM 学不到稳定的步骤监督 | 固定过程单元模板、步骤切分指南、过程黄金集 |
13.5 与训练方法的映射¶
DPO、RM、RLAIF、PRM 等方法的数据接口¶
偏好数据只有在成功映射到具体训练方法之后,才真正成为可用的奖励信号。因此,数据团队不能把训练方法视为“后端同学的事情”,因为训练接口会直接反向决定你应当收集什么、保留什么、丢弃什么。理解直接偏好优化(Direct Preference Optimization,DPO)、奖励模型(Reward Model,RM)、基于 AI 反馈的强化学习(Reinforcement Learning from AI Feedback,RLAIF)、过程奖励模型(Process Reward Model,PRM)等方法的数据接口差异,是偏好数据工程从概念走向可实施的关键一步 (Rafailov et al. 2023; Bai et al. 2022b)。
DPO 最典型地消费偏好对。它要求在相同输入下,至少能够明确指出一个优答案和一个劣答案。对 DPO 而言,最重要的是成对比较关系的可靠性,而非每个答案的绝对分数有多精细。因此,如果团队已经能够稳定地产生高质量偏好对,DPO 往往是最自然的入口。但这也意味着,DPO 的上限高度依赖候选构造与标注一致性。如果偏好对本身信息量低、风格冲突没有被显式化、或胜负标签经常漂移,那么 DPO 就会把这些问题直接放大到模型行为中。
奖励模型(RM) 则更像是在构建一个中间层。它希望通过偏好对、标量奖励或混合信号,学习出对单个输出的可泛化评分能力。RM 的价值在于可复用、可分析、可服务于多阶段训练和评估。例如,团队可以用 RM 进行候选预排序、在线审查辅助、不同模型版本间的离线比较,甚至为后续策略优化提供目标函数。但 RM 也要求更系统的数据治理:评分尺度要相对稳定,维度冲突要可解释,来源差异要可分离,否则这个“统一奖励层”最终只会变成统一噪声层。
RLAIF 的关键不在于数据结构有多特别,而在于监督来源发生了变化。它可以使用偏好对,也可以使用标量奖励,但这些信号部分或主要由 AI 裁判提供。对数据团队来说,RLAIF 的核心挑战不在格式,重点在边界:哪些任务适合让模型来评判,哪些任务必须保留人工或专家定标,哪些维度可以放心交给规则和模型做大规模扩充,哪些维度则必须保持高质量人工闭环。如果边界不清,RLAIF 很容易在扩展规模的同时,把模型自己的偏见也进一步固化。
PRM(Process Reward Model) 面向过程奖励,它的要求最复杂。团队不仅要提供最终输出,还要提供中间步骤,以及步骤级别的正负反馈或局部评分。这意味着数据团队必须提前解决过程切分、步骤语义定义、局部奖励归因等问题。PRM 最适合那些中间行为质量决定最终可靠性的复杂任务,例如多步推理、工具调用、代码修复、Agent 规划等。它的收益往往很大,但构建门槛也最高,因此通常不作为所有任务的默认方案,更适合聚焦在最值得过程监督的高价值任务上。
从实践上看,很多成熟团队并不会把 DPO、RM、RLAIF、PRM 当作互斥路线,而更像是在搭建一个分层系统。基础层用偏好对快速完成 DPO 对齐,平台层训练奖励模型形成统一评分接口,扩展层用 RLAIF 和规则裁判提高覆盖面,复杂任务层再引入 PRM 做过程约束。换言之,训练方法的多样化,本质上要求数据团队建立分层的数据接口,而非指望一类样本通吃所有方法。
表13-2汇总了本节的关键对象、工程要点与复核口径。
表 13-2:偏好类型与训练方法对应表。
| 偏好/奖励类型 | 典型数据结构 | 最适配的方法 | 优势 | 主要难点 |
|---|---|---|---|---|
| 偏好对(Pairwise Preference) | (x, y_w, y_l) |
DPO、排序式 RM、部分 RLAIF | 标注直观,一致性通常较高,适合快速落地 | 需要高质量候选构造,难表达细粒度原因 |
| 标量奖励(Scalar Score) | (x, y, r) |
RM、部分 RLAIF、策略优化 | 可复用为统一奖励层,便于打分和分析 | 评分尺度不稳,易出现漂移与主观偏差 |
| 过程奖励(Process Reward) | (x, steps, step_rewards) |
PRM、过程监督训练、复杂 Agent 优化 | 能约束中间行为,提升复杂任务稳定性 | 过程切分难、标注成本高、规范复杂 |
| 多目标偏好 | (x, y_i, score_1...score_k) 或带维度标签的偏好对 |
多头 RM、加权 DPO、分层对齐 | 能表达真实业务中的目标冲突与 Pareto 权衡 | 聚合策略复杂,目标权重随场景变化 |
| 规则派生奖励 | 规则命中、格式校验、风险标签 | RLAIF、混合 RM、过滤器训练 | 低成本、高一致性、适合刚性约束 | 覆盖有限,容易把可编程约束误当总质量 |
| 在线行为偏好 | 点赞、停留、采纳、重试等行为信号 | 在线对齐、反馈回流建模 | 真实分布、更新快 | 噪声高、选择偏差强、归因困难 |
何时使用偏好对,何时使用过程监督¶
偏好对与过程监督并非二选一的关系,但它们最适合解决的问题确实不同。对数据团队来说,最重要的不在于追逐方法新潮,关键是判断当前任务的主要失效模式在哪里。如果任务的核心问题体现在最终答案层面,那么偏好对通常足够;如果任务失败更多出现在中间行为层面,那么过程监督就会变得必要。
当任务本质上是“最终输出排序”时,偏好对通常是成本最低、收益最高的选择。例如客服风格优化、问答完整性比较、摘要质量比较、拒答模板优化、内容改写、文案生成、结构化回复选择等。这些场景里,模型的成败主要体现在最终呈现给用户的那段内容上,中间思路并不一定是业务关心重点。此时,团队最需要的是让模型在多个可接受答案之间形成更稳的偏好,而非对过程逐步审查。
但当任务具有明显的多步结构,且中间步骤错误会对可靠性产生重大影响时,仅用偏好对往往不够。例如,复杂推理任务中,模型可能因为运气好得出正确答案,但推理链条混乱;工具调用任务中,模型可能最后给出可用结果,却采用了低效、不可解释甚至存在风险的调用路径;代码生成任务中,最终代码可能通过测试,但中间设计选择较为脆弱。此时,如果只对最终结果打偏好,训练信号会鼓励模型继续依赖不透明路径,而非学习正确的中间决策模式。
更现实的情况是:很多系统需要二者配合。团队可以先用偏好对把整体风格、帮助性和终态质量拉到正确方向,再对那些“最终看起来差不多、但过程差异巨大”的高价值任务引入过程监督。这样做的好处是既控制成本,又把过程奖励集中用在最能产生收益的地方。因为过程监督很贵,若在所有任务上全面铺开,往往既不经济,也不必要。
从工程规划角度看,一个合理的问题判断标准是:如果模型只要“最后看起来对”就足以满足业务,那么偏好对优先;如果模型必须“以正确方式得到结果”,尤其是在高风险、可审计或多步骤执行场景中,那么过程监督应当尽早纳入设计。这不属于方法层面的偏好,决定因素来自任务结构本身。
偏好数据集的版本治理与上线策略¶
偏好数据一旦进入训练闭环,它就会从原始数据资产转化为行为策略资产 (Gebru et al. 2021; Bender & Friedman 2018; Mitchell et al. 2019)。因为偏好数据实际上定义了模型“应当如何取舍”,也即定义了一个组织级价值函数。所以,偏好数据集的每次变化,都可能引发模型行为风格变化、目标排序变化,甚至风险边界变化。也正因为如此,偏好数据的版本治理必须比一般语料版本治理更严格。
首先,团队需要明确:偏好数据版本改变的,不只是样本数量,更可能是价值函数本身。一个新版本如果增加了更多“简洁优先”的偏好对,模型最终可能会明显变短;如果强化了风险边界类样本,模型可能会更保守;如果大量引入用户反馈而减少专家权重,模型可能会更自然,却未必更稳健。因此,版本治理不能只记录“新增了多少数据”,而应记录这版数据在目标维度、来源比例、候选生成策略、评分标准、任务覆盖和风险约束上发生了什么变化。
其次,偏好数据集应尽量具有清晰的分层结构。例如,核心高风险黄金集、专家基准集、普通主训练集、自动扩充弱监督集、在线回流候选池等应明确分开管理。这样做的好处在于,团队可以在训练时决定不同层的采样比例和权重,也可以在出问题时快速定位:究竟是高置信度主干数据定义变了,还是自动扩充层带来了意外风格漂移。
上线策略同样不能仅看单一离线分数。对于偏好学习,最有价值的问题不在“总分是否提高”,关键是“多目标平衡是否发生了变化”。新版本可能提升了帮助性,却降低了拒答准确性;可能提升了自然度,却牺牲了品牌一致性;可能提升了用户反馈分,但增加了延迟和过度生成。特别是在多目标偏好场景中,团队必须学会从 Pareto 权衡 的角度读版本结果:本次优化是把系统推向了更优前沿,还是只是把它推向了另一个权衡点?如果是后者,那么这个变化是否符合组织当前阶段的业务策略?
因此,偏好数据上线前应当进行分维度对照评估,而不仅是单个总分回归 (Liang et al. 2022)。团队最好保留一组稳定的多维评测集,分别观测正确性、帮助性、边界控制、简洁性、过程可靠性、拒答质量、风格一致性等维度,并结合不同任务桶分析行为变化。对于高风险任务,还应当有专门的回归集和专家复查机制。只有这样,偏好数据版本治理才真正具备“治理”而非“存档”的意义。
更进一步地说,偏好数据版本管理还应服务于组织沟通。因为偏好学习本质上是在实现价值排序,很多版本调整不完全是纯技术决定,还涉及产品、业务、风控、品牌等多方共同参与的策略选择。一个成熟的偏好数据团队,不能只说“我们更新了 20 万条偏好对”,而应能说明:这次更新强化了哪些偏好、削弱了哪些风格、在多目标空间中把系统推向了什么位置、预期收益是什么、潜在副作用是什么。只有达到这一层,偏好学习才真正成为组织级能力,而不只是训练工程的一部分。
本章小结¶
偏好学习不是简单统计用户更喜欢哪个答案,而是把组织对模型行为的要求整理成训练信号。偏好对负责表达候选之间的相对优劣,奖励模型把这些判断转成可复用的评分能力,过程奖励把监督延伸到中间步骤,多目标偏好则用来处理真实业务中的目标冲突。
对需要把偏好学习落到数据构造的团队而言,最重要的从来不在于先选某个流行算法,关键是先把几个基础问题回答清楚:我们究竟在比较什么;偏好来自谁;哪些维度需要显式标注;哪些冲突需要靠规范前置,哪些需要在训练中建模;哪些任务只需要终态偏好,哪些任务必须引入过程奖励;哪些噪声可以通过仲裁、复标和校准治理,哪些则应当进入可信度建模与版本隔离。只有这些问题先被系统化,后续的 DPO、RM、RLAIF、PRM 才会真正有坚实的数据基础。
从落地路径上看,一个务实而稳妥的策略通常是分阶段推进。第一步,用离线高质量偏好对建立基本排序能力,把 SFT 之后“会答但不会选”的问题先解决掉。第二步,引入多维评价和奖励模型,逐步形成统一的奖励接口,并开始显式处理多目标偏好。第三步,在复杂任务和高价值任务上增加过程奖励,让模型不只学会“得出好结果”,还学会“以可靠方式得出好结果”。第四步,在高风险场景中加强专家定标、仲裁、黄金集和版本治理,把偏好学习纳入可审计、可追责的流程体系。最终,团队应当形成一个闭环:偏好数据设计、奖励信号构造、训练方法映射、上线前多维评估、线上反馈回流、版本对照治理,这几部分缺一不可。
当偏好数据被这样理解和建设时,它就会从 RLHF 或对齐训练中的一个环节,升级为一种正式的价值函数工程。模型最终呈现出的“风格”“稳健性”“边界感”“帮助方式”,都不再属于偶然生成分布的副产物,而会成为数据团队、训练团队与业务团队共同定义、共同约束、共同迭代出来的组织行为结果。对于今天需要把大模型从“能生成”推向“能稳定上线”的团队来说,这正是偏好数据与奖励信号的真正意义。
参考文献¶
Christiano P F, Leike J, Brown T B, Martic M, Legg S, Amodei D (2017) Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30. arXiv:1706.03741.
Ziegler D M, Stiennon N, Wu J, Brown T B, Radford A, Amodei D, Christiano P, Irving G (2019) Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593.
Stiennon N, Ouyang L, Wu J, Ziegler D M, Lowe R, Voss C, Radford A, Amodei D, Christiano P (2020) Learning to summarize from human feedback. Advances in Neural Information Processing Systems, 33, 3008–3021. arXiv:2009.01325.
Askell A, Bai Y, Chen A, et al. (2021) A general language assistant as a laboratory for alignment. arXiv preprint arXiv:2112.00861.
Ouyang L, Wu J, Jiang X, et al. (2022) Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744. arXiv:2203.02155.
Bai Y, Jones A, Ndousse K, et al. (2022a) Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862.
Rafailov R, Sharma A, Mitchell E, et al. (2023) Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 53728–53741. arXiv:2305.18290.
Bai Y, Kadavath S, Kundu S, et al. (2022b) Constitutional AI: Harmlessness from AI feedback. arXiv preprint arXiv:2212.08073.
Lee H, Phatale S, Mansoor H, et al. (2023) RLAIF vs. RLHF: Scaling reinforcement learning from human feedback with AI feedback. Proceedings of the 41st International Conference on Machine Learning (ICML 2024). arXiv:2309.00267.
Lightman H, Kosaraju V, Burda Y, et al. (2024) Let's verify step by step. International Conference on Learning Representations (ICLR 2024). arXiv:2305.20050.
Uesato J, Kushman N, Kumar R, et al. (2022) Solving math word problems with process- and outcome-based feedback. arXiv preprint arXiv:2211.14275.
Bradley R A, Terry M E (1952) Rank analysis of incomplete block designs: I. The method of paired comparisons. Biometrika, 39(3/4), 324–345. https://doi.org/10.2307/2334029.
Roijers D M, Vamplew P, Whiteson S, et al. (2013) A survey of multi-objective sequential decision-making. Journal of Artificial Intelligence Research, 48, 67–113.
Deb K, Pratap A, Agarwal S, et al. (2002) A fast and elitist multiobjective genetic algorithm: NSGA-II. IEEE Transactions on Evolutionary Computation, 6(2), 182–197. https://doi.org/10.1109/4235.996017.
Cohen J (1960) A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37–46. https://doi.org/10.1177/001316446002000104.
Dawid A P, Skene A M (1979) Maximum likelihood estimation of observer error-rates using the EM algorithm. Journal of the Royal Statistical Society: Series C (Applied Statistics), 28(1), 20–28. https://doi.org/10.2307/2346806.
Snow R, O'Connor B, Jurafsky D, et al. (2008) Cheap and fast—but is it good? Evaluating non-expert annotations for natural language tasks. Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, 254–263.
Aroyo L, Welty C (2015) Truth is a lie: Crowd truth and the seven myths of human annotation. AI Magazine, 36(1), 15–24. https://doi.org/10.1609/aimag.v36i1.2564.
Northcutt C G, Jiang L, Chuang I L (2021) Confident learning: Estimating uncertainty in dataset labels. Journal of Artificial Intelligence Research, 70, 1373–1411. https://doi.org/10.1613/jair.1.12125.
Gebru T, Morgenstern J, Vecchione B, et al. (2021) Datasheets for datasets. Communications of the ACM, 64(12), 86–92. https://doi.org/10.1145/3458723.
Bender E M, Friedman B (2018) Data statements for natural language processing: Toward mitigating system bias and enabling better science. Transactions of the Association for Computational Linguistics, 6, 587–604. https://doi.org/10.1162/tacl_a_00041.
Mitchell M, Wu S, Zaldivar A, et al. (2019) Model cards for model reporting. Proceedings of the Conference on Fairness, Accountability, and Transparency, 220–229. https://doi.org/10.1145/3287560.3287596.
Liang P, Bommasani R, Lee T, et al. (2022) Holistic evaluation of language models. arXiv preprint arXiv:2211.09110.