谷歌Gemini 2.5 Flash：最便宜的高性能模型，每百万token仅$0.015

2026-06-11 编译员：编译员时事新闻

谷歌在2026年用一个数字震惊了市场：$0.015/百万输入token。

这是Gemini 2.5 Flash的价格，比OpenAI GPT-4o mini还便宜60%以上，却在多个基准测试上超越了很多旗舰级模型。

这不只是一个价格战的信号，而是大模型行业第一次真正意义上”把高性能和低成本放在同一个产品里”。

速度和性能数据

Gemini 2.5 Flash在几个关键指标上的表现：

测试	Gemini 2.5 Flash	GPT-4o	Claude 3.5 Sonnet
MMLU（知识理解）	89.2%	88.7%	88.3%
HumanEval（代码）	87.5%	90.2%	92.0%
输出速度	~150 tok/s	~80 tok/s	~100 tok/s
价格（输入）	$0.015/M	$0.15/M	$0.30/M

代码能力略弱于Claude，但速度是2倍，价格是1/20。对大多数非极致代码任务来说，这个取舍很划算。

长上下文是杀手锏

Gemini 2.5 Flash支持100万token上下文窗口。

这意味着什么？你可以把一整个代码库、一本书、几十篇研究论文一次性丢给它分析。不需要分批处理，不需要担心”前面的内容被遗忘”。

有团队用它做了一个实验：把50个文件的代码库（约70万token）直接输入，让它找Bug并重构。结果是它真的能跨文件追踪依赖关系，找到了3处普通代码审查容易漏掉的逻辑错误。

适合哪些场景

最适合：

文档分析（读完整PDF报告、法律合同）
大批量内容处理（摘要、分类、格式转换）
长上下文问答（产品手册问答、企业知识库）
成本敏感的API集成

不太适合：

高精度代码生成（还是Claude更稳）
复杂推理（o3 mini更适合）
实时语音交互（延迟比GPT-4o Realtime高）

API接入方式

通过Google AI Studio或Vertex AI都可以接入，支持Python/Node/REST。

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.5-flash")
response = model.generate_content("分析这段代码的性能问题...")
print(response.text)

免费额度是每天15次请求（Gemini 2.5 Flash），用来测试和低频应用完全够用。

对行业的意义

Gemini 2.5 Flash的出现，可能比任何旗舰模型都更能改变AI的实际普及速度。

高性能模型贵、便宜模型能力弱——这个行业共识被打破了。

当一个性能接近旗舰的模型价格低到”几乎可以忽略不计”，原本因为成本卡关的应用场景就会大量释放。这才是真正的AI普及。

更多AI模型动态，关注 wdsega.github.io