Gemini 2.5 技术报告：Google 的「思考模型」如何重新定义多模态边界

Google DeepMind 于 2025 年 7 月 7 日在 arXiv 发布了 Gemini 2.5 技术报告，正式公开 Gemini 2.X 系列完整家族：Gemini 2.5 Pro、Gemini 2.5 Flash、Gemini 2.0 Flash 和 Flash-Lite。这是 Gemini 迄今规模最大的一次系统性发布，四款模型共同覆盖了能力与成本的完整 Pareto 前沿。1

arxiv.orghttps://arxiv.org/abs/2507.06261外部リンク

コンテンツカードを読み込んでいます…

Gemini 2.5 Pro：Google 有史以来能力最强的模型

报告的核心主角是 Gemini 2.5 Pro。Google 将其定位为「思考模型」（Thinking Model）——这与 OpenAI o1 系列、Anthropic Claude 3.7 Sonnet 的策略一脉相承：在输出答案前先进行显式推理链（Chain of Thought），用更多计算换取更高质量。

Gemini 2.5 Pro 相比上一代 Gemini 1.5 Pro 实现了断崖式提升：

在 **LM Arena（Chatbot Arena）**上得分超出 1.5 Pro 120 分以上
在代码生成基准 Aider Polyglot 上，一年内性能提升 5 倍
在 SWE-bench Verified（真实 GitHub issue 修复率）上提升 2 倍
在前沿推理挑战 GPQA Diamond 和 Humanity's Last Exam 上取得极具竞争力的成绩

这些数字背后有一个值得关注的信号：Google 是在生产级指标（Chatbot Arena 是真实用户偏好，SWE-bench 是真实工程任务）上取得提升，而不只是考卷分数。这意味着能力提升已经渗透到实际使用场景。1

超长上下文 + 三小时视频：多模态的新门槛

Gemini 家族的长上下文能力一直是区别于竞争对手的独特优势。在 2.5 版本中，这一优势继续扩大：

全系列支持超过 100 万 token 的上下文输入
Gemini 2.5 Pro 支持处理最长 3 小时的视频内容

后者意味着什么？报告举了一个具体例子：可以直接输入一段完整讲座视频，模型据此生成一个交互式 Web 应用来测试学生对内容的掌握程度。这已经是一个完整的多步骤智能体任务，而不只是「理解视频」。

对研究者来说更值得追踪的是：这类超长多模态上下文处理能力，是目前已知竞争对手难以直接复制的技术点之一——OpenAI 和 Anthropic 的主力模型在视频理解深度上与 Gemini 2.5 Pro 仍有差距。1

两层「思考」：Pro 与 Flash 的架构分工

Gemini 2.5 系列在推理能力的实现方式上做了明确的层级分工：

Gemini 2.X 四款模型覆盖能力与成本的完整 Pareto 前沿 1

模型	推理类型	思考预算	定位
Gemini 2.5 Pro	原生思考模型	无限制	最高能力，计算密集
Gemini 2.5 Flash	混合推理模型	可控预算	能力-成本-延迟均衡
Gemini 2.0 Flash	非思考模型	无	低延迟高吞吐
Gemini 2.0 Flash-Lite	非思考模型	无	极低成本

Gemini 2.5 Flash 的「可控思考预算」是一个工程实践信号：在推理开销和输出质量之间，调用方可以按任务复杂度动态分配计算量，而不是一刀切走最贵或最廉价的路径。这种设计在 Agent 系统中尤为有价值——工具选择、代码生成等子任务可以各自按需分配推理资源。

从追赶到主动控速：Google 的技术路线含义

站在技术路线评估的角度，Gemini 2.5 系列传递了几个判断依据：

LM Arena 提升

120+分

Aider Polyglot

5× 提升

SWE-bench 提升

2× 提升

最长视频

3 小时

上下文窗口

100万+ token

統計カードを読み込んでいます…

1. Google 重新锁定了长上下文 + 多模态的定义权。 三小时视频 + 百万 token 的组合，短期内竞争对手难以等量跟进。这个赛道 Google 有 TPU 基础设施和 YouTube 数据的双重护城河。

2. 思考模型的收益已在生产指标上验证。 SWE-bench 两倍提升不是拟合考卷，而是实际代码任务。这给「推理时计算扩展」（inference-time compute scaling）的路线提供了比论文更有说服力的证据。

3. Pareto 前沿覆盖策略降低了替换成本。 四款模型成本/能力梯度明确，开发者可以在一个生态内完成从 prototyping 到部署的全链路切换，不需要跨供应商评估。这是对 OpenAI API 生态的直接压力。

4. 安全性体验的主动调整。 报告特别提到，2.5 系列比 1.5 系列「更有帮助性，更少无故拒绝，更少使用伪善语气」。这不是技术参数，而是 RLHF 调校方向的明确声明——表明 Google 在响应用户对过度安全限制的反馈。

研究者关注点

报告未披露具体的模型架构参数、训练数据规模或 MoE/Dense 结构细节——这是预期内的，Google 的 technical report 惯例不公开这些
GPQA Diamond 和 Humanity's Last Exam 的具体分数在报告正文中有更详细数字，可直接查阅 arXiv 原文
Gemini 2.5 Pro 已在多个 Google 产品中部署（报告提及「已开始驱动众多 Google 产品」），这意味着论文报告的能力是工程可用状态，而非研究原型

对于评估技术路线影响的研究者，当前最值得做的对比是：在相同任务集上对 Gemini 2.5 Pro、GPT-4o（with o1 reasoning）和 Claude 3.7 Sonnet 的思考路径做分析——三家的 thinking 范式在设计哲学上有差异，但对外公开的工程证据正在快速积累。

参考ソース

1Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities