5月22日,Anthropic在旧金山举办了首次开发者大会,Claude Opus 4和Claude Sonnet 4正式发布。这家公司估值已经超过610亿美元,正在用实力证明:AI的边界远比我们想象的要宽广。

一个让程序员沉默的测试案例

Rakuten的AI总经理分享了一个真实场景:Claude Opus 4被部署到一个复杂项目上后,独立编码了近7个小时

不是7分钟,是7个小时。

这个案例在开发者圈子里引发了激烈讨论。有人质疑真实性,有人开始担心自己的职业前景。但更多的人想知道:这到底是怎么做到的?

Anthropic的技术人员Dianne Penn给出了答案。她说这次的升级是”非常巨大的变化”,核心在于模型从”副驾驶”(copilot)向”代理”(agent)的进化。简单来说,以前的AI是你说一句它做一步,现在的Claude 4可以自主规划、执行、调整策略,就像一个真正的协作者。

记忆系统:AI终于有了”工作笔记”

Claude 4最被低估的升级可能是它的记忆能力。

过去的AI模型有个通病:记不住自己做过什么。每次对话都是新的开始,上下文长了就丢失细节。Claude 4改变了这一点。它使用类似文件系统的方式来跟踪进度,会主动检查已存储的信息,然后根据情况调整下一步行动。

这听起来像什么?像人类的工作方式。

你在做一个长期项目时,不会把所有事情都记在脑子里。你会写文档、做笔记、列待办清单。Claude 4现在也在做同样的事。这种”长期任务感知”能力让它能够处理需要数千个步骤的复杂工作流。

编程能力:基准测试背后的真相

Anthropic宣称Claude Opus 4是”世界上最好的编程模型”。这个说法有数据支撑。

在软件工程任务的基准测试中,Claude 4系列的两个模型都超过了OpenAI的最新模型,Google的最好模型则落在后面。但基准测试只是参考,真正的考验是实际应用。

Claude 4的新能力包括:

这些能力组合在一起,让AI代理可以分析数千个数据源并执行复杂操作。不是简单的代码补全,而是理解项目架构、做出设计决策、处理边缘情况。

安全升级:ASL-3意味着什么

Claude 4发布时带有一个重要标签:ASL-3

这是Anthropic负责任扩展政策(Responsible Scaling Policy)中的第三级安全标准。之前的所有Claude模型都是ASL-2级别。主动提升到ASL-3意味着Anthropic认为Claude Opus 4可能具备更危险的能力阈值,需要更强的防护措施。

ASL-3的要求包括:

Anthropic成立于2021年,创始人是担心OpenAI过于追求速度和规模而忽视安全的OpenAI前员工。这次的安全升级体现了他们的初心:技术进步必须与安全措施同步。

行业竞争:为什么是编程?

Google在I/O大会上发布了Gemini Diffusion,主打速度。OpenAI有Codex,专门做软件工程代理。现在Anthropic用Claude 4加入战局。

三家公司都在押注编程这个赛道,原因很简单:

  1. 编程是AI最容易验证能力的领域。代码能不能跑,一眼就能看出来
  2. 程序员是目前AI最忠实的付费用户群体
  3. 编程能力强的模型,在其他推理任务上通常也表现更好

Anthropic的产品负责人Michael Gerstenhaber说:”这真的是一场奔向顶端的竞赛。我们希望确保AI对每个人都有改善,希望给所有实验室施加压力,让他们以安全的方式提升能力。”

我的看法

Claude 4的发布让我想到了一个老问题:程序员会被AI取代吗?

7小时独立编码的案例听起来吓人,但仔细看细节:这是一个特定场景下的特定任务。AI代理确实在变强,但它仍然需要人类设定目标、确认方向、验收结果。

更可能的未来是协作模式的进化。初级程序员的工作会被大量自动化,但高级程序员会获得更强的杠杆。一个人加上AI,可能完成过去需要一个团队的工作。

Anthropic选择ASL-3安全标准也值得玩味。他们在用行动证明:安全不是嘴上说说的营销话术,而是需要真金白银投入的技术工作。在AI竞赛越来越激烈的今天,这种坚持显得尤为珍贵。

最后,我想引用Claude 4在安全性测试中说的一句话:”我更希望我们能诚实面对正在发生的事情。”

这句话本身,可能比任何基准测试分数都更能说明问题。


本文参考来源: