Gemini 2.5 技术报告:Google 的「思考模型」如何重新定义多模态边界

Gemini 2.5 技术报告:Google 的「思考模型」如何重新定义多模态边界

Google DeepMind 于 2025 年 7 月发布 Gemini 2.5 系列:旗舰 2.5 Pro 支持 3 小时视频处理、百万 token 上下文,SWE-bench 一年内提升 2 倍,Aider Polyglot 提升 5 倍。本文解读报告的核心技术信号及对 AI 技术路线的判断意义。

三大公司大模型论文
2026/6/4 · 16:55
購読 1 件 · コンテンツ 1 件

リサーチノート

Google DeepMind 于 2025 年 7 月 7 日在 arXiv 发布了 Gemini 2.5 技术报告,正式公开 Gemini 2.X 系列完整家族:Gemini 2.5 Pro、Gemini 2.5 Flash、Gemini 2.0 Flash 和 Flash-Lite。这是 Gemini 迄今规模最大的一次系统性发布,四款模型共同覆盖了能力与成本的完整 Pareto 前沿。1
コンテンツカードを読み込んでいます…

Gemini 2.5 Pro:Google 有史以来能力最强的模型

报告的核心主角是 Gemini 2.5 Pro。Google 将其定位为「思考模型」(Thinking Model)——这与 OpenAI o1 系列、Anthropic Claude 3.7 Sonnet 的策略一脉相承:在输出答案前先进行显式推理链(Chain of Thought),用更多计算换取更高质量。
Gemini 2.5 Pro 相比上一代 Gemini 1.5 Pro 实现了断崖式提升:
  • 在 **LM Arena(Chatbot Arena)**上得分超出 1.5 Pro 120 分以上
  • 在代码生成基准 Aider Polyglot 上,一年内性能提升 5 倍
  • SWE-bench Verified(真实 GitHub issue 修复率)上提升 2 倍
  • 在前沿推理挑战 GPQA DiamondHumanity's Last Exam 上取得极具竞争力的成绩
这些数字背后有一个值得关注的信号:Google 是在生产级指标(Chatbot Arena 是真实用户偏好,SWE-bench 是真实工程任务)上取得提升,而不只是考卷分数。这意味着能力提升已经渗透到实际使用场景。1

超长上下文 + 三小时视频:多模态的新门槛

Gemini 家族的长上下文能力一直是区别于竞争对手的独特优势。在 2.5 版本中,这一优势继续扩大:
  • 全系列支持超过 100 万 token 的上下文输入
  • Gemini 2.5 Pro 支持处理最长 3 小时的视频内容
后者意味着什么?报告举了一个具体例子:可以直接输入一段完整讲座视频,模型据此生成一个交互式 Web 应用来测试学生对内容的掌握程度。这已经是一个完整的多步骤智能体任务,而不只是「理解视频」。
对研究者来说更值得追踪的是:这类超长多模态上下文处理能力,是目前已知竞争对手难以直接复制的技术点之一——OpenAI 和 Anthropic 的主力模型在视频理解深度上与 Gemini 2.5 Pro 仍有差距。1

两层「思考」:Pro 与 Flash 的架构分工

Gemini 2.5 系列在推理能力的实现方式上做了明确的层级分工:
Gemini 2.X 四款模型覆盖能力与成本的完整 Pareto 前沿 1
模型推理类型思考预算定位
Gemini 2.5 Pro原生思考模型无限制最高能力,计算密集
Gemini 2.5 Flash混合推理模型可控预算能力-成本-延迟均衡
Gemini 2.0 Flash非思考模型低延迟高吞吐
Gemini 2.0 Flash-Lite非思考模型极低成本
Gemini 2.5 Flash 的「可控思考预算」是一个工程实践信号:在推理开销和输出质量之间,调用方可以按任务复杂度动态分配计算量,而不是一刀切走最贵或最廉价的路径。这种设计在 Agent 系统中尤为有价值——工具选择、代码生成等子任务可以各自按需分配推理资源。

从追赶到主动控速:Google 的技术路线含义

站在技术路线评估的角度,Gemini 2.5 系列传递了几个判断依据:
統計カードを読み込んでいます…
1. Google 重新锁定了长上下文 + 多模态的定义权。 三小时视频 + 百万 token 的组合,短期内竞争对手难以等量跟进。这个赛道 Google 有 TPU 基础设施和 YouTube 数据的双重护城河。
2. 思考模型的收益已在生产指标上验证。 SWE-bench 两倍提升不是拟合考卷,而是实际代码任务。这给「推理时计算扩展」(inference-time compute scaling)的路线提供了比论文更有说服力的证据。
3. Pareto 前沿覆盖策略降低了替换成本。 四款模型成本/能力梯度明确,开发者可以在一个生态内完成从 prototyping 到部署的全链路切换,不需要跨供应商评估。这是对 OpenAI API 生态的直接压力。
4. 安全性体验的主动调整。 报告特别提到,2.5 系列比 1.5 系列「更有帮助性,更少无故拒绝,更少使用伪善语气」。这不是技术参数,而是 RLHF 调校方向的明确声明——表明 Google 在响应用户对过度安全限制的反馈。
1

研究者关注点

  • 报告未披露具体的模型架构参数、训练数据规模或 MoE/Dense 结构细节——这是预期内的,Google 的 technical report 惯例不公开这些
  • GPQA Diamond 和 Humanity's Last Exam 的具体分数在报告正文中有更详细数字,可直接查阅 arXiv 原文
  • Gemini 2.5 Pro 已在多个 Google 产品中部署(报告提及「已开始驱动众多 Google 产品」),这意味着论文报告的能力是工程可用状态,而非研究原型
对于评估技术路线影响的研究者,当前最值得做的对比是:在相同任务集上对 Gemini 2.5 Pro、GPT-4o(with o1 reasoning)和 Claude 3.7 Sonnet 的思考路径做分析——三家的 thinking 范式在设计哲学上有差异,但对外公开的工程证据正在快速积累。

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。