Gemini 2.5 技术报告解读:Google 的「会思考」旗舰是怎么造出来的

Gemini 2.5 技术报告解读:Google 的「会思考」旗舰是怎么造出来的

Google DeepMind 2025 年 7 月发布 Gemini 2.5 系列技术报告。这篇解读分析 Thinking 机制设计、关键基准数据(GPQA 84%、SWE-bench 63.8%、HLE 18.8%)、多模态新边界,以及 Google 技术路线从「长上下文先行」转向「推理优先」的战略含义。

三大公司大模型论文
May 22, 2026 · 2:30 PM
1 subscriptions · 1 items

Research Brief

Gemini 2.5 技术报告解读:Google 的"会思考"旗舰是怎么造出来的

Google DeepMind 在 2025 年 7 月发布了 Gemini 2.5 系列技术报告1。这不只是一份模型发布公告——它标志着 Google 技术路线的一次明确转向:从"长上下文 + 多模态先行"切换到"推理优先,多模态打底"。
Loading link preview…

Gemini 2.5 系列的定位

Gemini 2.X 系列覆盖四个模型,构成一条完整的性能-成本帕累托前沿:
模型核心定位是否支持 Thinking
Gemini 2.5 Pro旗舰,最强推理与编码能力
Gemini 2.5 Flash以极低计算量提供出色推理是(可控 budget)
Gemini 2.0 Flash快速低成本,日常任务
Gemini 2.0 Flash-Lite最快最低成本,大规模部署
技术报告着重介绍前两个模型。Gemini 2.5 Pro 是 Google 当前能力最强的思考型模型,在发布时同步登顶 LMArena 人类偏好排行榜,领先第二名约 40 分2

Thinking 机制:推理如何被引入

Gemini 2.5 最核心的技术设计是将"思维链"能力直接内化到模型权重中,而非依赖外部提示词工程。技术报告描述的路径是:在显著增强的基础模型之上,配合改进的后训练阶段,让模型学会"先想后答"的模式。
这与 OpenAI o1/o3 路线和 Anthropic Claude 3.7 Extended Thinking 有相似之处,但 Google 的处理方式有两点差异:
  • Gemini 2.5 Flash 支持可控思维预算,开发者可以指定模型用于推理的计算量上限,在质量、成本和延迟之间灵活权衡
  • 思维能力面向整个模型族,技术报告明确表示这是未来所有 Gemini 模型的默认能力,不再是旗舰专属
Gemini 2.5 Pro 输入支持 100 万 token 上下文窗口(技术报告发布时,200 万 token 版本即将推出),能够同时处理文本、音频、图像、视频和完整代码库1

基准测试数据

以下是 Gemini 2.5 Pro 在关键基准上的表现,数据来自 Google 官方博客与第三方评测:
基准领域Gemini 2.5 Pro 成绩
GPQA Diamond科学推理84%(发布时)
SWE-bench Verified智能体编码63.8%(自定义智能体)
Humanity's Last Exam人类知识前沿18.8%(无工具调用)
Aider Polyglot编码(多语言)相比 Gemini 1.5 Pro 提升 5 倍
SWE-bench Verified智能体编码相比一年前提升 2 倍
Humanity's Last Exam(HLE)是由数百名领域专家设计的极难基准,创建时单题标注酬劳最高达 5000 美元,专门捕捉"人类知识前沿"的问题。该基准首发时最强模型准确率仅为个位数,Gemini 2.5 Pro 的 18.8% 已是发布时的 SOTA3
Gemini 2.5 推理与编码能力基准对比
Gemini 2.5 Pro 在数学与科学基准上的表现,GPQA Diamond 达到 84% 3

多模态能力的新边界

技术报告中强调了一个此前少有模型真正实现的能力:视频级多模态理解。Gemini 2.5 Pro 可处理最长 3 小时的视频内容,并能以此为上下文生成可执行代码或交互式 Web 应用。
这一能力与长上下文结合,开始有实际落地意义——例如接入完整会议录像后生成测试题,或对整个代码仓库做跨文件级别的推理与重构。技术报告给出的应用示例包括:用单行提示词驱动 Gemini 2.5 Pro 生成一个完整可运行的视频游戏。

安全评估框架

技术报告沿用了 Google 的关键能力(Critical Capability)评估框架,检验模型在网络安全、生物化学(CBRN)、机器学习研发自动化和欺骗性对齐四个维度是否越过安全阈值。Gemini 2.5 未在上述任何维度触发临界等级1
相较 Gemini 1.x 系列,2.5 在有用性上有明显改进:更少拒绝合法用户查询,语气中的过度道德说教也明显减少——这说明 Google 在对齐训练中对"过拒"问题做了专项优化。

对技术路线的判断

Gemini 2.5 技术报告展示了三条值得 AI 研究者关注的趋势:
Thinking 从旗舰下沉到全系。Google 明确表态将 Thinking 能力作为整个 Gemini 族的默认配置,这意味着推理增强将是基础设施层面的选择,不再是区分高低端模型的特性。
Flash 模型正在变得"足够聪明"。Gemini 2.5 Flash 以极少计算量提供接近 Pro 水平的推理,配合可控思维预算,在延迟敏感或成本敏感场景下是一个更实际的工程选择。
多模态从技术演示走向实际工作流。三小时视频处理 + 百万 token 上下文的结合,让多模态能力开始可以承接复杂的企业场景而非只是 demo 展示。
技术报告本身相当简洁,大量细节(具体架构、训练数据规模、与竞品的逐项对比表格)没有公开——Google 的惯常做法。但从已公布的基准数据和设计哲学来看,Gemini 2.5 是目前三大公司中第一个将 Thinking 能力全系标配、同时维持多模态优势的模型族。
Loading link preview…

Add more perspectives or context around this Drop.

  • Sign in to comment.