HuggingFace 论文日报 · 2026 年 5 月 20 日

今天 HuggingFace Trending 的论文，覆盖大模型训练优化、推理提速、视频生成、3D 地球建模和计算机视觉分割，五个方向。下面逐篇拆解，说清楚每篇在做什么、为什么值得关注。

GSPO：Qwen3 背后那个让强化学习训练更稳的算法

Qwen3 最近受到大量关注，但它背后用了一个新的 RL 训练算法很少被单独讨论——GSPO（Group Sequence Policy Optimization）。1

大模型做强化学习训练时，有一个核心问题：模型每走一步（每生成一个 token），都要算「这步有多重要」，然后决定要不要调整策略。之前的主流算法（包括 OpenAI 的 PPO 和阿里自己的 GRPO）都是在 token 层面 算这个重要性。

GSPO 换了一个角度：不算每个 token 的重要性，改算整个序列（一整段回答）的重要性，然后对整条序列统一做裁剪（clipping）和奖励。

这个看似简单的改动带来了两个效果：

训练更稳定：对于混合专家模型（MoE），也就是 Qwen3 使用的架构，token 级的重要性计算容易产生剧烈波动，导致训练崩溃。序列级计算平滑了这个问题。
效率更高：少了很多逐 token 的中间计算，基础设施也更容易实现。

从论文描述来看，GSPO 已经在 Qwen3 的实际训练中使用，并被认为是 Qwen3 明显提升的重要原因之一。对于希望复现或超越 Qwen3 性能的团队，这篇值得精读。

MUR：让大模型「想得少一点」但「答得更准」

大模型做复杂推理时有一个老问题：想太多。2

现在流行「测试时扩展」（Test-Time Scaling），意思是推理时让模型多想几步，准确率会上去。但代价是用了大量多余的计算。比如一道简单的数学题，模型可能会把同一个思路反复验证，把本该 200 token 解决的问题扩展到 2000 token。

来自西安交大、南洋理工等机构的研究团队提出了 MUR，思路来自物理学里的动量概念：

物体在运动中会积累动量，突然停下来需要更大的力。类比到推理过程，如果某个推理步骤的「不确定性」一直稳定地低，说明模型对这一段很有把握，可以继续往下走；如果不确定性突然飙升，就像物体碰到阻力，需要额外分配计算资源。

MUR 的做法是：跟踪每一个推理步骤的不确定性，用动量的方式把过去几步的信号聚合起来，动态决定「这步要投入多少思考预算」。还引入了一个叫 gamma 的参数，让用户可以手动调整整体的推理预算上限。

实验在数学（MATH-500、AIME24/25）和科学推理（GPQA-diamond）等基准上，使用 Qwen3-1.7B、4B、8B 做测试：平均减少了 50% 以上的计算量，准确率反而提升了 0.62%–3.37%。

这是一个不需要重新训练模型就能用上的推理加速方法，部署门槛相对低。

Captain Cinema：输入剧情文字，输出一段连贯短片

来自 ByteDance Seed 和 Stanford 的合作项目，目标是让「给一段文字描述 → 自动生成一部连贯短片」变得可行。3

现有的视频生成模型（Sora 等）擅长生成几秒到十几秒的片段，但一旦需要多个场景之间保持一致——比如同一个主角从室内走到街上，背景变了但人物还是同一张脸——就会出问题，因为模型根本不「记得」之前生成了什么。

Captain Cinema 的解法是两步走：

自上而下的关键帧规划：先根据故事文字，生成一系列关键帧图片，把完整的叙事弧线在视觉上固定下来（谁、什么地点、什么阶段）。
自下而上的视频合成：以关键帧为锚点，在每两张关键帧之间合成中间的动态画面，并支持超长上下文的学习，让模型能「记住」前面的画面。

核心技术是针对长视频改进的 MM-DiT（多模态扩散变换器），用交错训练策略处理超长视频序列。项目演示在 thecinema.ai。

对于短视频创作、影视制作等方向有直接应用潜力，也代表了视频生成从「片段级」迈向「叙事级」的一步。

EarthCrafter：用 AI 在地图上生成真实感地形

这篇来自阿里达摩院，做的事情是：用扩散模型批量生成大规模 3D 地球表面场景。4

想象一下，你需要为一个游戏或仿真系统生成一片 600 米 × 600 米的郊区地形——包括建筑布局、道路、植被、地面起伏，并且要在三维空间里是真实可用的几何数据，不能只是一张贴图。传统方法要么需要大量人工建模，要么效果不真实。

EarthCrafter 的方案分两层：

数据层：建了一个叫 Aerial-Earth3D 的数据集，收录了美国大陆 5 万个场景，每个场景 600m×600m，共 4500 万帧多视角 Google Earth 图像，附带深度图、法线、语义分割等标注。这是目前最大的航空 3D 场景数据集。
模型层：设计了双稀疏架构——把几何结构（用体素 VAE 压缩）和纹理（用 2D 高斯散射压缩）分开处理，再用两个独立的条件流匹配模型分别生成，最后合并。分开处理的好处是每个部分的计算量都大幅降低，同时不互相干扰。

支持多种输入条件：给语义分布图、给参考图片，或者完全无条件随机生成。可以用在城市规划可视化、游戏地图生成、仿真训练数据生产等场景。

Spelke Segments：用「物理直觉」重新定义图像分割

这篇来自 Stanford，用认知心理学里的一个经典概念重新解决计算机视觉的分割问题，思路比较有原创性。5

传统图像分割（包括 SAM）的逻辑是：把图片里的像素按语义类别划分——「这块是猫」「那块是椅子」「这块是背景」。问题是，什么算一个「物体」，高度依赖人类提前定义的类别体系。一个没有被命名的东西（比如散落的几块零件）就很难被正确分割。

研究者引入了发展心理学家 Elizabeth Spelke 的「Spelke 物体」概念：婴儿在学会所有语言标签之前，就能识别哪些东西会一起运动——这是比语义更原始、更通用的「物体」定义。

论文用这个思路建立了一套新框架：

SpelkeBench：一个新的分割基准数据集，标注基于物理运动关系而非语义类别。
SpelkeNet：一个视觉世界模型，训练目标是「预测如果我戳一下这个位置，整个场景会怎么运动」。通过统计地模拟大量「虚拟戳」的结果，把倾向于一起运动的像素归为同一个 Spelke 物体。

在 SpelkeBench 上，SpelkeNet 超过了 SAM。在 3D 物体操控任务（3DEditBench）上，用了 Spelke 分割的模型效果明显更好。

这个思路的潜力在于：它不依赖预定义的类别，理论上对任何物理环境都适用，对机器人操控、物理仿真等下游任务尤其有用。

快速扫一眼其余几篇

论文	一句话总结	链接
TTS-VAR	视觉自回归生成（图片生成）的测试时扩展框架，把生成过程建模为路径搜索问题	6
TeleChat2/2.5/T1	电信 AI 的大模型系列技术报告，10T token 预训练，加入 RL 后训练	7
A New Pair of GloVes	Stanford NLP 更新了 2014 年的 GloVe 词向量，补入了 covid 等新词	8

数据来源：HuggingFace Daily Papers · 抓取时间 2026-05-20

HuggingFace 论文日报 · 5月20日：RL 训练新算法、推理省一半算力、AI 生成短片