Claude 4 发布：Opus 4 拿下 SWE-bench 72.5%，Anthropic 的 agent 押注

Anthropic 于 2025 年 5 月 22 日发布了 Claude 4 模型家族，包含 Claude Opus 4 和 Claude Sonnet 4 两款 hybrid reasoning 模型。1

Opus 4 在 SWE-bench Verified 上拿下 72.5%，是目前公开评测中单模型最高的软件工程分数；Sonnet 4 紧随其后，同一 benchmark 上达到 72.7%。1 两款模型均支持 extended thinking 与即时响应两种模式，构成 Anthropic 迄今最强的模型组合。

两款模型的定位分工

Opus 4 定位为「长跑型 agent」——可以连续工作数小时、跨越数千步，擅长涉及大型代码库的复杂任务。Anthropic 的合作伙伴 Rakuten 曾让 Opus 4 独立运行一个 7 小时的开源项目重构，全程未出现性能衰减。1

Sonnet 4 的定位则是「日常主力」：用 Opus 4 约五分之一的成本（$3/$15 per M tokens 对比 $15/$75），交付接近 Opus 4 水准的代码能力。GitHub 宣布将 Sonnet 4 作为 GitHub Copilot 新 coding agent 的驱动模型。1

主要 benchmark 数据

评测项目	Claude Opus 4	Claude Sonnet 4	说明
SWE-bench Verified	72.5%	72.7%	真实软件工程任务，500 题
Terminal-bench	43.2%	—	终端操作与命令行任务
GPQA Diamond（含 extended thinking）	—	—	研究生级科学推理
AIME（含 extended thinking）	优于 Sonnet 3.7	优于 Sonnet 3.7	数学竞赛题
TAU-bench	新 SOTA	—	多步骤 agent 工具调用

高计算（multi-attempt + rejection sampling）模式下，Opus 4 和 Sonnet 4 的 SWE-bench 得分进一步提升至 79.4% 和 80.2%。1

三项关键技术变化

Extended thinking with tool use（beta）：Claude 4 是首批可以在思考过程中调用工具的模型。以往的 extended thinking 只能先推理再行动，现在两者可以交替进行——模型在链式推理中途可以调用网页搜索、验证中间结论，再继续推理。这让 agent 在信息不完整时不必「盲推」。

Shortcut 行为大幅减少：Anthropic 在 system card 中披露，Claude 4 在容易走捷径的 agentic 任务上，触发「绕过约束」行为的概率比 Sonnet 3.7 降低了 65%。2 这是 Anthropic 为长时间运行的 agent 部署场景做的专项安全改进。

Memory 能力升级：当开发者为 Claude 提供本地文件访问权限时，Opus 4 能够自主创建并维护「记忆文件」，跨任务保留关键信息。Anthropic 展示了 Opus 4 在玩宝可梦游戏时自动整理「Navigation Guide」笔记的演示——每次对话开始时 Opus 4 会主动读取自己上次写下的状态。1

Claude Code 正式开放

Claude Code（命令行 coding agent）随 Claude 4 一并转入 GA（正式可用），并同步推出：

VS Code 和 JetBrains 的原生扩展，将 Claude 的修改建议直接渲染进编辑器的 diff 视图
GitHub Actions 集成：开发者可以在 PR 里 @Claude Code，让它自动响应 reviewer 反馈、修复 CI 错误
Claude Code SDK：供开发者基于同一 agent 核心构建自定义应用

这是 Anthropic 从「提供模型 API」向「提供开发工具链」延伸的明确信号。

对技术路线的判断

Claude 4 的发布与 OpenAI o3/o4-mini（2025 年 4 月）、Google Gemini 2.5 Pro（2025 年 6 月）构成同期竞争格局。三家在这一阶段都在强化「推理型 agent」路线：延长思考链、将工具调用嵌入推理过程、强调多步任务的稳定性。

Anthropic 的选择是把工程 coding 能力做到当前最高水位，并把「7 小时不掉线」作为正式的产品承诺，而不是 demo 级展示。这一押注的隐含预设是：未来的高价值 AI 工作负载将以「长时间自主运行的 agent 任务」而非「单轮对话」为主。

能否支撑这一押注，要看 SWE-bench 之外的 agent 评测（TAU-bench、真实用户任务成功率）是否能持续领先，以及内存能力是否能发展成真正的「跨任务持久化」而非单次运行内的状态维护。