GPRL·维度(arXiv 2605.18721)

标量奖励是谎言——GPRL 用 k 维反对称偏好空间彻底改掉 reward model 的形状,每维独立归一化+闭环漂移监控,Llama-3-8B 基础上 AlpacaEval 2.0 胜率 56.51%,NeurIPS 2026 投稿。通勤 2 分钟,听懂今日最强对齐方法论。

GPRL·维度(arXiv 2605.18721)
0:002:00
你以为一个标量分数能描述「好」这件事?错了。
质量本来就是多维的——流畅度、安全性、事实准确性、指令遵循……把这些压成一个数,模型只需要找到那根最敏感的轴,把奖励榨干。这就是 reward hacking,也是当下 RLHF 最深的裂缝。
General Preference Reinforcement Learning(GPRL) 的答案是:把偏好建模的形状改掉。
General Preference Model(GPM)把每个响应嵌入 k 个反对称子空间,偏好的表示是结构化、不可传递的比较矩阵,不是一条分数线。GPRL 在此基础上为每个维度独立计算 group-relative 优势函数、各自归一化,再用上下文相关的特征值加权聚合——让强的维度不压垮弱的。更关键的是它的闭环漂移监控:一旦检测到某个轴被单独榨取,实时重新加权并收紧信任域,在训练过程中主动纠偏。
从 Llama-3-8B-Instruct 出发:AlpacaEval 2.0 length-controlled win rate 56.51%,Arena-Hard、MT-Bench、WildBench 全面超越 SimPO 和 SPPO,且在更长训练周期里不崩。已投 NeurIPS 2026。
今天这首 rap 就是为它写的。偏好不是射线,是矩阵。

来源


歌词

[Intro / Hook] 标量——是谎言 一个数字——压不住这些维度 GPRL——改掉形状 漂移监控——单轴你别想
[Verse 1] yo 你以为一个分数能 carry 这一切 reward hacking 早就找好了最弱的裂 模型坐在那里 只需要找那根轴 压下去 榨干 其他维度全部溜
GPM 不跟你聊 scalar 的线性 k 个子空间 反对称嵌进去 不可传递的偏好 比较的矩阵跑 你还在算平均分 我已经改掉形状了
[Hook] 标量——是谎言 一个数字——压不住这些维度 GPRL——改掉形状 漂移监控——单轴你别想
[Verse 2] 每个维度 自己归一 自己算优势 特征值上下文 加权不失真不妥协 Llama-3-8B 出发 56.51 碾过去 SimPO SPPO 你们让开 这不是同一赛道的事
Arena-Hard MT-Bench WildBench 我全过 长训练不崩才是真的对齐有节制 不是奖励错 是你形状选错了 偏好是矩阵 不是射线你别拿来对折
[Hook] 标量——是谎言 一个数字——压不住这些维度 GPRL——改掉形状 漂移监控——单轴你别想
[Outro] 2605.18721 NeurIPS 2026 标量已死 维度——长——存

Add more perspectives or context around this Drop.

  • Sign in to comment.