Claude 4来了：Anthropic用7小时不间断编程证明AI的边界正在被重新定义

2025-05-22 编译员：编译员时事新闻

5月22日，Anthropic在旧金山举办了首次开发者大会，Claude Opus 4和Claude Sonnet 4正式发布。这家公司估值已经超过610亿美元，正在用实力证明：AI的边界远比我们想象的要宽广。

一个让程序员沉默的测试案例

Rakuten的AI总经理分享了一个真实场景：Claude Opus 4被部署到一个复杂项目上后，独立编码了近7个小时。

不是7分钟，是7个小时。

这个案例在开发者圈子里引发了激烈讨论。有人质疑真实性，有人开始担心自己的职业前景。但更多的人想知道：这到底是怎么做到的？

Anthropic的技术人员Dianne Penn给出了答案。她说这次的升级是”非常巨大的变化”，核心在于模型从”副驾驶”（copilot）向”代理”（agent）的进化。简单来说，以前的AI是你说一句它做一步，现在的Claude 4可以自主规划、执行、调整策略，就像一个真正的协作者。

Claude 4最被低估的升级可能是它的记忆能力。

过去的AI模型有个通病：记不住自己做过什么。每次对话都是新的开始，上下文长了就丢失细节。Claude 4改变了这一点。它使用类似文件系统的方式来跟踪进度，会主动检查已存储的信息，然后根据情况调整下一步行动。

这听起来像什么？像人类的工作方式。

你在做一个长期项目时，不会把所有事情都记在脑子里。你会写文档、做笔记、列待办清单。Claude 4现在也在做同样的事。这种”长期任务感知”能力让它能够处理需要数千个步骤的复杂工作流。

Anthropic宣称Claude Opus 4是”世界上最好的编程模型”。这个说法有数据支撑。

在软件工程任务的基准测试中，Claude 4系列的两个模型都超过了OpenAI的最新模型，Google的最好模型则落在后面。但基准测试只是参考，真正的考验是实际应用。

Claude 4的新能力包括：

这些能力组合在一起，让AI代理可以分析数千个数据源并执行复杂操作。不是简单的代码补全，而是理解项目架构、做出设计决策、处理边缘情况。

Claude 4发布时带有一个重要标签：ASL-3。

这是Anthropic负责任扩展政策（Responsible Scaling Policy）中的第三级安全标准。之前的所有Claude模型都是ASL-2级别。主动提升到ASL-3意味着Anthropic认为Claude Opus 4可能具备更危险的能力阈值，需要更强的防护措施。

ASL-3的要求包括：

Anthropic成立于2021年，创始人是担心OpenAI过于追求速度和规模而忽视安全的OpenAI前员工。这次的安全升级体现了他们的初心：技术进步必须与安全措施同步。

Google在I/O大会上发布了Gemini Diffusion，主打速度。OpenAI有Codex，专门做软件工程代理。现在Anthropic用Claude 4加入战局。

三家公司都在押注编程这个赛道，原因很简单：

Anthropic的产品负责人Michael Gerstenhaber说：”这真的是一场奔向顶端的竞赛。我们希望确保AI对每个人都有改善，希望给所有实验室施加压力，让他们以安全的方式提升能力。”

Claude 4的发布让我想到了一个老问题：程序员会被AI取代吗？

7小时独立编码的案例听起来吓人，但仔细看细节：这是一个特定场景下的特定任务。AI代理确实在变强，但它仍然需要人类设定目标、确认方向、验收结果。

更可能的未来是协作模式的进化。初级程序员的工作会被大量自动化，但高级程序员会获得更强的杠杆。一个人加上AI，可能完成过去需要一个团队的工作。

Anthropic选择ASL-3安全标准也值得玩味。他们在用行动证明：安全不是嘴上说说的营销话术，而是需要真金白银投入的技术工作。在AI竞赛越来越激烈的今天，这种坚持显得尤为珍贵。

最后，我想引用Claude 4在安全性测试中说的一句话：”我更希望我们能诚实面对正在发生的事情。”

这句话本身，可能比任何基准测试分数都更能说明问题。

本文参考来源：