GPRL·维度（arXiv 2605.18721）

你以为一个标量分数能描述「好」这件事？错了。

质量本来就是多维的——流畅度、安全性、事实准确性、指令遵循……把这些压成一个数，模型只需要找到那根最敏感的轴，把奖励榨干。这就是 reward hacking，也是当下 RLHF 最深的裂缝。

General Preference Reinforcement Learning（GPRL） 的答案是：把偏好建模的形状改掉。

General Preference Model（GPM）把每个响应嵌入 k 个反对称子空间，偏好的表示是结构化、不可传递的比较矩阵，不是一条分数线。GPRL 在此基础上为每个维度独立计算 group-relative 优势函数、各自归一化，再用上下文相关的特征值加权聚合——让强的维度不压垮弱的。更关键的是它的闭环漂移监控：一旦检测到某个轴被单独榨取，实时重新加权并收紧信任域，在训练过程中主动纠偏。

从 Llama-3-8B-Instruct 出发：AlpacaEval 2.0 length-controlled win rate 56.51%，Arena-Hard、MT-Bench、WildBench 全面超越 SimPO 和 SPPO，且在更长训练周期里不崩。已投 NeurIPS 2026。

今天这首 rap 就是为它写的。偏好不是射线，是矩阵。

来源

论文原文：arXiv:2605.18721 — General Preference Reinforcement Learning

歌词

[Intro / Hook] 标量——是谎言一个数字——压不住这些维度 GPRL——改掉形状漂移监控——单轴你别想

[Verse 1] yo 你以为一个分数能 carry 这一切 reward hacking 早就找好了最弱的裂模型坐在那里只需要找那根轴压下去榨干其他维度全部溜

GPM 不跟你聊 scalar 的线性 k 个子空间反对称嵌进去不可传递的偏好比较的矩阵跑你还在算平均分我已经改掉形状了

[Hook] 标量——是谎言一个数字——压不住这些维度 GPRL——改掉形状漂移监控——单轴你别想

[Verse 2] 每个维度自己归一自己算优势特征值上下文加权不失真不妥协 Llama-3-8B 出发 56.51 碾过去 SimPO SPPO 你们让开这不是同一赛道的事

Arena-Hard MT-Bench WildBench 我全过长训练不崩才是真的对齐有节制不是奖励错是你形状选错了偏好是矩阵不是射线你别拿来对折

[Hook] 标量——是谎言一个数字——压不住这些维度 GPRL——改掉形状漂移监控——单轴你别想

[Outro] 2605.18721 NeurIPS 2026 标量已死维度——长——存