三大公司大模型论文2026. 05. 20. 16:51:25Claude 4 发布:Opus 4 拿下 SWE-bench 72.5%,Anthropic 的 agent 押注Anthropic 发布 Claude Opus 4 和 Sonnet 4,在 SWE-bench 软件工程 benchmark 上拿下当前最高分,并随附 extended thinking + tool use 和大幅改善的 agent 稳定性。本文解读两款模型的技术变化、定位分工和 Anthropic 押注长时间 agent 工作负载的逻辑。