谷歌在2026年用一个数字震惊了市场:$0.015/百万输入token

这是Gemini 2.5 Flash的价格,比OpenAI GPT-4o mini还便宜60%以上,却在多个基准测试上超越了很多旗舰级模型。

这不只是一个价格战的信号,而是大模型行业第一次真正意义上”把高性能和低成本放在同一个产品里”。

速度和性能数据

Gemini 2.5 Flash在几个关键指标上的表现:

测试 Gemini 2.5 Flash GPT-4o Claude 3.5 Sonnet
MMLU(知识理解) 89.2% 88.7% 88.3%
HumanEval(代码) 87.5% 90.2% 92.0%
输出速度 ~150 tok/s ~80 tok/s ~100 tok/s
价格(输入) $0.015/M $0.15/M $0.30/M

代码能力略弱于Claude,但速度是2倍,价格是1/20。对大多数非极致代码任务来说,这个取舍很划算。

长上下文是杀手锏

Gemini 2.5 Flash支持100万token上下文窗口。

这意味着什么?你可以把一整个代码库、一本书、几十篇研究论文一次性丢给它分析。不需要分批处理,不需要担心”前面的内容被遗忘”。

有团队用它做了一个实验:把50个文件的代码库(约70万token)直接输入,让它找Bug并重构。结果是它真的能跨文件追踪依赖关系,找到了3处普通代码审查容易漏掉的逻辑错误。

适合哪些场景

最适合:

不太适合:

API接入方式

通过Google AI Studio或Vertex AI都可以接入,支持Python/Node/REST。

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.5-flash")
response = model.generate_content("分析这段代码的性能问题...")
print(response.text)

免费额度是每天15次请求(Gemini 2.5 Flash),用来测试和低频应用完全够用。

对行业的意义

Gemini 2.5 Flash的出现,可能比任何旗舰模型都更能改变AI的实际普及速度。

高性能模型贵、便宜模型能力弱——这个行业共识被打破了。

当一个性能接近旗舰的模型价格低到”几乎可以忽略不计”,原本因为成本卡关的应用场景就会大量释放。这才是真正的AI普及。


更多AI模型动态,关注 wdsega.github.io