OpenAI o3 mini发布时,很多人只注意到了”价格便宜”这个卖点。
实际上真正值得关注的,是它在编程基准测试上的表现:在多个公开竞争性编程题集(Codeforces rating 2000+)上,o3 mini的通过率首次超越了90百分位的人类参赛者。
这不是普通的”AI做了道编程题”,这是AI在人类认为很难的编程问题上打败了大多数人类专业选手。
o3是OpenAI的旗舰推理模型,o3 mini是精简版,主要针对代码和STEM任务做了优化。
在性能上:
简单说:如果你主要用它写代码或做数学推导,o3 mini是更高性价比的选择。
我给它出了一道动态规划题:在一个带权有向图中,找到从起点到终点的路径,使路径上的最小边权最大化(最大最小路径问题)。
普通模型的通常做法:尝试暴力搜索或者套用Dijkstra。o3 mini的做法是:
整个推理过程完整展示在回答里,不是”黑箱给答案”,而是可以跟着它的思路走。
这种过程透明的推理,是o3系列区别于GPT-4o的最大特征。
诚实地说,o3 mini不是万能的:
o3 mini的出现,让AI辅助编程从”自动补全”升级到”自动推理”。
以前你用Copilot,它帮你补全语法。现在你用o3 mini,它帮你想清楚算法。这是质的区别。
但有一个问题随之而来:当AI能做算法题,初级程序员的位置在哪里?
我的看法:算法题不是编程的全部。 真实工程中,更多时间花在理解需求、处理遗留代码、协调团队上。这些o3 mini都还做不了。
短期内,o3 mini更像是一个”高级题解助手”,而不是”替代工程师”。
但长期来看,边界在移动。
更多AI模型测评,关注 wdsega.github.io