Gemini 2.5 技术报告解读:思考模型、3 小时视频理解与新智能体范式

Gemini 2.5 技术报告解读:思考模型、3 小时视频理解与新智能体范式

Google DeepMind 发布 Gemini 2.5 技术报告,介绍 2.X 模型家族。Gemini 2.5 Pro 以思考模型定位、3 小时视频处理能力和前沿代码/推理 SoTA 性能为核心卖点;报告同时揭示了当前 benchmark 生态面临的快速饱和问题,以及「推理 + 长上下文 + 多模态」三者组合对智能体工作流的影响。

三大公司大模型论文
2026/6/3 · 18:01
購読 1 件 · コンテンツ 1 件

リサーチノート

Google DeepMind 在 arXiv 上发布了 Gemini 2.5 技术报告,正式介绍 Gemini 2.X 模型家族。这是继 Gemini 1.5 之后的代际更新,报告覆盖四个型号:旗舰级 Gemini 2.5 Pro、轻量推理版 Gemini 2.5 Flash,以及前代的 Gemini 2.0 Flash 与 Gemini 2.0 Flash-Lite。报告作者超过 3000 人,提交时间 2025 年 7 月 7 日,随后多次修订至 v6。1

Gemini 2.X 模型家族:一条 Pareto 曲线

Google DeepMind 的整体产品策略在报告中表述得相当清晰:让四个模型覆盖「能力与成本的完整帕累托前沿」,而不是一款通吃。
型号定位特点
Gemini 2.5 Pro旗舰推理最强代码与推理能力,当前 SoTA
Gemini 2.5 Flash高效推理少量算力即具备强推理,低延迟
Gemini 2.0 Flash高性能入门低延迟低成本下的均衡方案
Gemini 2.0 Flash-Lite超轻量极低成本,大规模部署场景
这个产品矩阵与 Anthropic 的 Claude Opus / Sonnet / Haiku 分层,以及 OpenAI 的 o3 / GPT-4o / 轻量模型线思路相似——行业在这一轮都在押注「同家族多效率点」的产品形态,而不是一款大模型对齐所有场景。
四个模型在能力-成本帕累托曲线上的分布
Gemini 2.X 模型家族的能力-成本帕累托分布示意图(AI 生成示意图)

推理能力:思考成为标配

Gemini 2.5 Pro 最引人注目的是它的推理定位:报告称其在「前沿编码和推理基准上实现 SoTA 性能」,且明确定位为 thinking model(思考模型)——模型在给出最终答案前会进行显式推理步骤。1
核心 benchmark 进步汇总:
基准领域备注
Aider Polyglot代码跨语言任务一年内提升 5×
SWE-bench verified软件工程 agent同期提升 2×
GPQA Diamond专业科学推理顶尖水平
Humanity's Last Exam高难度综合考试单题悬赏最高 $5000
在这些 benchmark 上的快速进步揭示了一个值得关注的现象:AI 能力提升速度持续快于新评测基准的开发速度。报告直接点出这一矛盾——如 Humanity's Last Exam 的单道合格题悬赏高达 5000 美元,以确保人类专家尚未饱和的难度,但 AI 依然在快速逼近。
Gemini Pro 在主要基准上的一年内性能提升对比
Gemini Pro 一年内在代码(5×)与软件工程(2×)基准上的性能提升示意(AI 生成示意图)

多模态:3 小时视频 + 跨模态理解

Gemini 2.5 Pro 的多模态能力是报告的另一个重点。最具体的指标:单次请求可处理最长 3 小时的视频内容1
报告给出了一个具体示例:基于一段讲座视频,模型可以生成能测试观看者知识掌握程度的交互式网页应用。这个场景的意义不仅是演示多模态理解,更是在描述一类全新的工作流——模型从消费内容升级为基于内容的自动化生产者。
视频理解能力与长上下文结合,这两者叠加的产物是 Google 在报告中反复强调的「下一代智能体工作流」。

上下文与智能体:真正要争的竞争维度

报告对上下文长度的具体数字没有明确披露,但反复强调「超长上下文 + 多模态 + 推理」三者组合可以解锁新型智能体任务。1
三家公司在「推理 + 长上下文 + 工具调用」这个交叉点上的竞争路径对比:
公司代表模型(2025)智能体核心能力押注
Google DeepMindGemini 2.5 Pro长视频理解 + 超长上下文 + 多模态推理
AnthropicClaude Sonnet 4 / Opus 4代码智能体 + 安全对齐 + 计算机控制
OpenAIGPT-4.1 / o3代码生成 + 推理模型 + 函数调用生态
这一叙事框架与 Anthropic 在 Claude 3.7 / 4 时期对 Agent 场景的押注、OpenAI 在 GPT-4.1 / o3 上对代码智能体的投入,方向高度一致。三家公司在「推理 + 长上下文 + 工具调用」这个交叉点上的竞争,是当前大模型技术路线最值得跟踪的核心维度。
Gemini 2.5 系列已经开始为 Google 内部产品提供支撑,这意味着这不只是 benchmark 层面的竞争——它直接关联到 Google 搜索、Workspace、Android AI 能力的实际演进速度。

与前代的对比:不只是能力提升

报告明确指出,与 Gemini 1.5 相比,2.5 系列在三个维度有系统性改进:
  1. 性能大幅提升(代码、推理、多模态均有跨越式进步)
  2. 更安全、更乐于助人(减少无意义拒绝,减少过度「道学气」的回应)
  3. 完整能力-成本覆盖(2.0 Flash-Lite 到 2.5 Pro,同一家族跨越多个使用场景)
第 2 点值得工程师注意。「减少无意义拒绝」是当前生产落地中的实际痛点:过度安全的模型在真实应用场景里带来大量需要绕过的限制,降低可用性。Google 明确把这作为本代改进目标,说明这不是偶然调整,而是有意识的产品策略。

对研究者和工程师的观察

这份报告与行业通行做法一样,在架构细节上公开内容有限——不披露参数量、不详述训练数据构成、不给出具体的 MoE 或注意力结构。读者能从中获得的是:性能定位与评测选择,而非架构复现所需的技术细节。
統計カードを読み込んでいます…
对于研究者,更值得关注的是报告揭示的评测生态问题:当代旗舰模型已经让现有多数 benchmark 迅速饱和,「对齐真实经济价值任务」和「扩展评测能力覆盖范围」成为下一代评测体系的核心挑战。这个问题不是 Google 一家的问题,是整个领域面临的共同处境。
1

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。