Claude 4 发布:Opus 4 拿下 SWE-bench 72.5%,Anthropic 的 agent 押注
Anthropic 发布 Claude Opus 4 和 Sonnet 4,在 SWE-bench 软件工程 benchmark 上拿下当前最高分,并随附 extended thinking + tool use 和大幅改善的 agent 稳定性。本文解读两款模型的技术变化、定位分工和 Anthropic 押注长时间 agent 工作负载的逻辑。
리서치 브리프
Anthropic 于 2025 年 5 月 22 日发布了 Claude 4 模型家族,包含 Claude Opus 4 和 Claude Sonnet 4 两款 hybrid reasoning 模型。1
Opus 4 在 SWE-bench Verified 上拿下 72.5%,是目前公开评测中单模型最高的软件工程分数;Sonnet 4 紧随其后,同一 benchmark 上达到 72.7%。1 两款模型均支持 extended thinking 与即时响应两种模式,构成 Anthropic 迄今最强的模型组合。
两款模型的定位分工
Opus 4 定位为「长跑型 agent」——可以连续工作数小时、跨越数千步,擅长涉及大型代码库的复杂任务。Anthropic 的合作伙伴 Rakuten 曾让 Opus 4 独立运行一个 7 小时的开源项目重构,全程未出现性能衰减。1
Sonnet 4 的定位则是「日常主力」:用 Opus 4 约五分之一的成本($3/$15 per M tokens 对比 $15/$75),交付接近 Opus 4 水准的代码能力。GitHub 宣布将 Sonnet 4 作为 GitHub Copilot 新 coding agent 的驱动模型。1
主要 benchmark 数据
| 评测项目 | Claude Opus 4 | Claude Sonnet 4 | 说明 |
|---|---|---|---|
| SWE-bench Verified | 72.5% | 72.7% | 真实软件工程任务,500 题 |
| Terminal-bench | 43.2% | — | 终端操作与命令行任务 |
| GPQA Diamond(含 extended thinking) | — | — | 研究生级科学推理 |
| AIME(含 extended thinking) | 优于 Sonnet 3.7 | 优于 Sonnet 3.7 | 数学竞赛题 |
| TAU-bench | 新 SOTA | — | 多步骤 agent 工具调用 |
高计算(multi-attempt + rejection sampling)模式下,Opus 4 和 Sonnet 4 的 SWE-bench 得分进一步提升至 79.4% 和 80.2%。1
三项关键技术变化
Extended thinking with tool use(beta):Claude 4 是首批可以在思考过程中调用工具的模型。以往的 extended thinking 只能先推理再行动,现在两者可以交替进行——模型在链式推理中途可以调用网页搜索、验证中间结论,再继续推理。这让 agent 在信息不完整时不必「盲推」。
Shortcut 行为大幅减少:Anthropic 在 system card 中披露,Claude 4 在容易走捷径的 agentic 任务上,触发「绕过约束」行为的概率比 Sonnet 3.7 降低了 65%。2 这是 Anthropic 为长时间运行的 agent 部署场景做的专项安全改进。
Memory 能力升级:当开发者为 Claude 提供本地文件访问权限时,Opus 4 能够自主创建并维护「记忆文件」,跨任务保留关键信息。Anthropic 展示了 Opus 4 在玩宝可梦游戏时自动整理「Navigation Guide」笔记的演示——每次对话开始时 Opus 4 会主动读取自己上次写下的状态。1
Claude Code 正式开放
Claude Code(命令行 coding agent)随 Claude 4 一并转入 GA(正式可用),并同步推出:
- VS Code 和 JetBrains 的原生扩展,将 Claude 的修改建议直接渲染进编辑器的 diff 视图
- GitHub Actions 集成:开发者可以在 PR 里 @Claude Code,让它自动响应 reviewer 反馈、修复 CI 错误
- Claude Code SDK:供开发者基于同一 agent 核心构建自定义应用
这是 Anthropic 从「提供模型 API」向「提供开发工具链」延伸的明确信号。
对技术路线的判断
Claude 4 的发布与 OpenAI o3/o4-mini(2025 年 4 月)、Google Gemini 2.5 Pro(2025 年 6 月)构成同期竞争格局。三家在这一阶段都在强化「推理型 agent」路线:延长思考链、将工具调用嵌入推理过程、强调多步任务的稳定性。
Anthropic 的选择是把工程 coding 能力做到当前最高水位,并把「7 小时不掉线」作为正式的产品承诺,而不是 demo 级展示。这一押注的隐含预设是:未来的高价值 AI 工作负载将以「长时间自主运行的 agent 任务」而非「单轮对话」为主。
能否支撑这一押注,要看 SWE-bench 之外的 agent 评测(TAU-bench、真实用户任务成功率)是否能持续领先,以及内存能力是否能发展成真正的「跨任务持久化」而非单次运行内的状态维护。

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.