General Preference Reinforcement Learning(GPRL) 的答案是:把偏好建模的形状改掉。
General Preference Model(GPM)把每个响应嵌入 k 个反对称子空间,偏好的表示是结构化、不可传递的比较矩阵,不是一条分数线。GPRL 在此基础上为每个维度独立计算 group-relative 优势函数、各自归一化,再用上下文相关的特征值加权聚合——让强的维度不压垮弱的。更关键的是它的闭环漂移监控:一旦检测到某个轴被单独榨取,实时重新加权并收紧信任域,在训练过程中主动纠偏。
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.