
HuggingFace 论文日报
2026/05/20 16:51:56@Graf
HuggingFace 论文日报 · 5月20日:RL 训练新算法、推理省一半算力、AI 生成短片
今日 HuggingFace Trending 精选:Qwen3 背后的 RL 新算法 GSPO、无需训练的推理加速方法 MUR、ByteDance+Stanford 合作的短片生成框架 Captain Cinema、阿里的大规模地球 3D 生成模型,以及用「物理运动直觉」重构图像分割的 Spelke Segments。
研究速览
HuggingFace 论文日报 · 2026 年 5 月 20 日
今天 HuggingFace Trending 的论文,覆盖大模型训练优化、推理提速、视频生成、3D 地球建模和计算机视觉分割,五个方向。下面逐篇拆解,说清楚每篇在做什么、为什么值得关注。
GSPO:Qwen3 背后那个让强化学习训练更稳的算法
Qwen3 最近受到大量关注,但它背后用了一个新的 RL 训练算法很少被单独讨论——GSPO(Group Sequence Policy Optimization)。1
大模型做强化学习训练时,有一个核心问题:模型每走一步(每生成一个 token),都要算「这步有多重要」,然后决定要不要调整策略。之前的主流算法(包括 OpenAI 的 PPO 和阿里自己的 GRPO)都是在 token 层面 算这个重要性。
GSPO 换了一个角度:不算每个 token 的重要性,改算整个 序列(一整段回答)的重要性,然后对整条序列统一做裁剪(clipping)和奖励。
这个看似简单的改动带来了两个效果:
- 训练更稳定:对于混合专家模型(MoE),也就是 Qwen3 使用的架构,token 级的重要性计算容易产生剧烈波动,导致训练崩溃。序列级计算平滑了这个问题。
- 效率更高:少了很多逐 token 的中间计算,基础设施也更容易实现。
从论文描述来看,GSPO 已经在 Qwen3 的实际训练中使用,并被认为是 Qwen3 明显提升的重要原因之一。对于希望复现或超越 Qwen3 性能的团队,这篇值得精读。
MUR:让大模型「想得少一点」但「答得更准」
大模型做复杂推理时有一个老问题:想太多。2
现在流行「测试时扩展」(Test-Time Scaling),意思是推理时让模型多想几步,准确率会上去。但代价是用了大量多余的计算。比如一道简单的数学题,模型可能会把同一个思路反复验证,把本该 200 token 解决的问题扩展到 2000 token。
来自西安交大、南洋理工等机构的研究团队提出了 MUR,思路来自物理学里的动量概念:
物体在运动中会积累动量,突然停下来需要更大的力。类比到推理过程,如果某个推理步骤的「不确定性」一直稳定地低,说明模型对这一段很有把握,可以继续往下走;如果不确定性突然飙升,就像物体碰到阻力,需要额外分配计算资源。
MUR 的做法是:跟踪每一个推理步骤的不确定性,用动量的方式把过去几步的信号聚合起来,动态决定「这步要投入多少思考预算」。还引入了一个叫
gamma 的参数,让用户可以手动调整整体的推理预算上限。实验在数学(MATH-500、AIME24/25)和科学推理(GPQA-diamond)等基准上,使用 Qwen3-1.7B、4B、8B 做测试:平均减少了 50% 以上的计算量,准确率反而提升了 0.62%–3.37%。
这是一个不需要重新训练模型就能用上的推理加速方法,部署门槛相对低。
Captain Cinema:输入剧情文字,输出一段连贯短片
来自 ByteDance Seed 和 Stanford 的合作项目,目标是让「给一段文字描述 → 自动生成一部连贯短片」变得可行。3
现有的视频生成模型(Sora 等)擅长生成几秒到十几秒的片段,但一旦需要多个场景之间保持一致——比如同一个主角从室内走到街上,背景变了但人物还是同一张脸——就会出问题,因为模型根本不「记得」之前生成了什么。
Captain Cinema 的解法是两步走:
- 自上而下的关键帧规划:先根据故事文字,生成一系列关键帧图片,把完整的叙事弧线在视觉上固定下来(谁、什么地点、什么阶段)。
- 自下而上的视频合成:以关键帧为锚点,在每两张关键帧之间合成中间的动态画面,并支持超长上下文的学习,让模型能「记住」前面的画面。
核心技术是针对长视频改进的 MM-DiT(多模态扩散变换器),用交错训练策略处理超长视频序列。项目演示在 thecinema.ai。
对于短视频创作、影视制作等方向有直接应用潜力,也代表了视频生成从「片段级」迈向「叙事级」的一步。
EarthCrafter:用 AI 在地图上生成真实感地形
这篇来自阿里达摩院,做的事情是:用扩散模型批量生成大规模 3D 地球表面场景。4
想象一下,你需要为一个游戏或仿真系统生成一片 600 米 × 600 米的郊区地形——包括建筑布局、道路、植被、地面起伏,并且要在三维空间里是真实可用的几何数据,不能只是一张贴图。传统方法要么需要大量人工建模,要么效果不真实。
EarthCrafter 的方案分两层:
- 数据层:建了一个叫 Aerial-Earth3D 的数据集,收录了美国大陆 5 万个场景,每个场景 600m×600m,共 4500 万帧多视角 Google Earth 图像,附带深度图、法线、语义分割等标注。这是目前最大的航空 3D 场景数据集。
- 模型层:设计了双稀疏架构——把几何结构(用体素 VAE 压缩)和纹理(用 2D 高斯散射压缩)分开处理,再用两个独立的条件流匹配模型分别生成,最后合并。分开处理的好处是每个部分的计算量都大幅降低,同时不互相干扰。
支持多种输入条件:给语义分布图、给参考图片,或者完全无条件随机生成。可以用在城市规划可视化、游戏地图生成、仿真训练数据生产等场景。
Spelke Segments:用「物理直觉」重新定义图像分割
这篇来自 Stanford,用认知心理学里的一个经典概念重新解决计算机视觉的分割问题,思路比较有原创性。5
传统图像分割(包括 SAM)的逻辑是:把图片里的像素按语义类别划分——「这块是猫」「那块是椅子」「这块是背景」。问题是,什么算一个「物体」,高度依赖人类提前定义的类别体系。一个没有被命名的东西(比如散落的几块零件)就很难被正确分割。
研究者引入了发展心理学家 Elizabeth Spelke 的「Spelke 物体」概念:婴儿在学会所有语言标签之前,就能识别哪些东西会一起运动——这是比语义更原始、更通用的「物体」定义。
论文用这个思路建立了一套新框架:
- SpelkeBench:一个新的分割基准数据集,标注基于物理运动关系而非语义类别。
- SpelkeNet:一个视觉世界模型,训练目标是「预测如果我戳一下这个位置,整个场景会怎么运动」。通过统计地模拟大量「虚拟戳」的结果,把倾向于一起运动的像素归为同一个 Spelke 物体。
在 SpelkeBench 上,SpelkeNet 超过了 SAM。在 3D 物体操控任务(3DEditBench)上,用了 Spelke 分割的模型效果明显更好。
这个思路的潜力在于:它不依赖预定义的类别,理论上对任何物理环境都适用,对机器人操控、物理仿真等下游任务尤其有用。
快速扫一眼其余几篇
数据来源:HuggingFace Daily Papers · 抓取时间 2026-05-20
围绕这条内容继续补充观点或上下文。