谷歌在2026年用一个数字震惊了市场:$0.015/百万输入token。
这是Gemini 2.5 Flash的价格,比OpenAI GPT-4o mini还便宜60%以上,却在多个基准测试上超越了很多旗舰级模型。
这不只是一个价格战的信号,而是大模型行业第一次真正意义上”把高性能和低成本放在同一个产品里”。
Gemini 2.5 Flash在几个关键指标上的表现:
| 测试 | Gemini 2.5 Flash | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| MMLU(知识理解) | 89.2% | 88.7% | 88.3% |
| HumanEval(代码) | 87.5% | 90.2% | 92.0% |
| 输出速度 | ~150 tok/s | ~80 tok/s | ~100 tok/s |
| 价格(输入) | $0.015/M | $0.15/M | $0.30/M |
代码能力略弱于Claude,但速度是2倍,价格是1/20。对大多数非极致代码任务来说,这个取舍很划算。
Gemini 2.5 Flash支持100万token上下文窗口。
这意味着什么?你可以把一整个代码库、一本书、几十篇研究论文一次性丢给它分析。不需要分批处理,不需要担心”前面的内容被遗忘”。
有团队用它做了一个实验:把50个文件的代码库(约70万token)直接输入,让它找Bug并重构。结果是它真的能跨文件追踪依赖关系,找到了3处普通代码审查容易漏掉的逻辑错误。
最适合:
不太适合:
通过Google AI Studio或Vertex AI都可以接入,支持Python/Node/REST。
import google.generativeai as genai
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.5-flash")
response = model.generate_content("分析这段代码的性能问题...")
print(response.text)
免费额度是每天15次请求(Gemini 2.5 Flash),用来测试和低频应用完全够用。
Gemini 2.5 Flash的出现,可能比任何旗舰模型都更能改变AI的实际普及速度。
高性能模型贵、便宜模型能力弱——这个行业共识被打破了。
当一个性能接近旗舰的模型价格低到”几乎可以忽略不计”,原本因为成本卡关的应用场景就会大量释放。这才是真正的AI普及。
更多AI模型动态,关注 wdsega.github.io