阶跃星辰Step 3.7 Flash:416 tokens/s,成本是Claude的1/9,国产模型性价比天花板
2026-06-10 | WDSEGA
阶跃星辰近日正式发布新模型Step 3.7 Flash,上线后迅速冲上OpenRouter Trending全球第二,在Artificial Analysis的速度、性价比、端到端三项榜单中同时排名第一。数据说话:这款模型做到了什么?
核心数据
| 指标 | Step 3.7 Flash |
|---|---|
| 最高输出速度 | 416 tokens/s |
| 成本对比 | 约为Claude Opus 4.6的 1/9 |
| 编程能力 | 达到Claude的约 97% |
| 速度榜排名 | Artificial Analysis 第一 |
| 性价比榜排名 | Artificial Analysis 第一 |
416 tokens/s是个什么概念?一般人阅读速度约300-500字/分钟,而416 tokens/s相当于每秒输出约300个中文字。这个速度在实时应用场景(客服机器人、代码补全、流式对话)中有实质性的体验优势。
性价比的真正含义
“成本是Claude的1/9”这个数字需要拆开来看。
Claude Opus 4.6是目前市场上定价最高的商用大模型之一,适合处理极复杂的推理任务。但绝大多数实际业务场景并不需要Opus级别的能力——写文案、做代码审查、整理文档、问答对话,这些任务对模型智力的要求并不极端。
Step 3.7 Flash的编程能力达到Claude的97%,意味着在开发者最常用的场景里,这两个模型几乎是同等级的。但成本只有1/9。
对于要大规模调用API的场景(自动化脚本、批量处理、高并发产品),这个价格差距会直接反映在月账单上。
国产模型的突破轨迹
回顾过去两年,国产大模型的成长路径很清晰:
- 2024年:能力对标GPT-3.5,价格更低
- 2025年:能力逼近GPT-4,价格持平或更低
- 2026年:在特定维度(速度、性价比)超越国际顶级模型
Step 3.7 Flash代表的是第三阶段的产品:不再是”便宜的替代品”,而是在具体指标上实现了超越。
适合谁用
推荐场景:
- 高频API调用、成本敏感的业务
- 对响应速度有要求的实时应用
- 代码生成、代码审查类任务
- 中文优化类任务(国产模型通常在中文理解上有优势)
不太适合的场景:
- 需要极复杂多步推理的任务(研究级推理)
- 对模型安全对齐要求极高的场景
如果你的业务目前在用Claude或GPT-4的API,Step 3.7 Flash值得做一次Benchmark对比测试。同等效果,账单可能缩减到1/9。
本文基于公开发布数据整理,实际性能以用户自测为准。