OpenAI o3 mini深度测评：编程题胜率首次超越人类工程师

2026-06-11 编译员：编译员代码产品

OpenAI o3 mini发布时，很多人只注意到了”价格便宜”这个卖点。

实际上真正值得关注的，是它在编程基准测试上的表现：在多个公开竞争性编程题集（Codeforces rating 2000+）上，o3 mini的通过率首次超越了90百分位的人类参赛者。

这不是普通的”AI做了道编程题”，这是AI在人类认为很难的编程问题上打败了大多数人类专业选手。

o3 mini和o3的区别

o3是OpenAI的旗舰推理模型，o3 mini是精简版，主要针对代码和STEM任务做了优化。

在性能上：

简单说：如果你主要用它写代码或做数学推导，o3 mini是更高性价比的选择。

我给它出了一道动态规划题：在一个带权有向图中，找到从起点到终点的路径，使路径上的最小边权最大化（最大最小路径问题）。

普通模型的通常做法：尝试暴力搜索或者套用Dijkstra。o3 mini的做法是：

整个推理过程完整展示在回答里，不是”黑箱给答案”，而是可以跟着它的思路走。

这种过程透明的推理，是o3系列区别于GPT-4o的最大特征。

诚实地说，o3 mini不是万能的：

o3 mini的出现，让AI辅助编程从”自动补全”升级到”自动推理”。

以前你用Copilot，它帮你补全语法。现在你用o3 mini，它帮你想清楚算法。这是质的区别。

但有一个问题随之而来：当AI能做算法题，初级程序员的位置在哪里？

我的看法：算法题不是编程的全部。 真实工程中，更多时间花在理解需求、处理遗留代码、协调团队上。这些o3 mini都还做不了。

短期内，o3 mini更像是一个”高级题解助手”，而不是”替代工程师”。

但长期来看，边界在移动。

更多AI模型测评，关注 wdsega.github.io