Gemini 2.5 技术报告：MoE 架构、Deep Think 推理与 100 万 token 长上下文

Google DeepMind 于 2025 年 7 月发布了 Gemini 2.5 技术报告，将 Gemini 2.X 模型家族的架构细节与评测结果首次公开呈现 1。这份报告覆盖 Gemini 2.5 Pro、Gemini 2.5 Flash 以及更早发布的 Gemini 2.0 Flash / Flash-Lite，是理解 Google 当前大模型技术路线的核心一手文献。

arxiv.org

Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

Google DeepMind 发布的 Gemini 2.X 技术报告，2025 年 7 月首发，2025 年 12 月更新至 v6。

正在加载链接预览…

架构：MoE + 原生多模态

Gemini 2.5 Pro 的底层是稀疏混合专家（MoE）Transformer，原生支持文本、图像和音频三种模态输入 1。与仅靠适配器拼接多模态的路径不同，MoE 结构让模型在扩大参数总量的同时保持激活参数可控，是当前大参数规模模型的主流选择。

技术报告明确指出，架构层面的核心改进目标是提升大规模训练稳定性、信号传播和优化动态。相比 Gemini 1.5 系列，预训练开箱性能有明显提升——报告用「leaps」描述这一跨代提升的幅度。

上下文窗口扩展到 100 万 token 以上，较 Gemini 1.5 Pro 有实质扩展。在视频输入场景下，这一窗口可容纳约 3 小时的完整视频，而 Gemini 1.5 Pro 的上限是 1 小时。

思考机制：Deep Think 与可控推理预算

Gemini 2.5 系列的核心工程特性是思考模式（Thinking Mode）：模型在生成最终答案前先进行内部推理，将思考过程作为中间计算步骤，而不直接输出 1。

Gemini 2.5 Pro 的 Deep Think 变体进一步引入并行思考技术：模型会同时生成并批驳多个假设，再综合得出最终答案。这与 OpenAI o1/o3 系列的串行 CoT（Chain-of-Thought）形成架构差异。

更值得工程师关注的是**思考预算（Thinking Budget）**机制：用户可以约束模型输出的 token 数，在性能与成本之间做显式权衡。这意味着同一模型可以在不同延迟 / 成本档位运行，而不必切换到不同尺寸的模型变体。

各模态能力提升

Gemini 2.5 的多模态能力提升覆盖了代码、视觉、音频、视频四条线：

代码：预训练数据增加了更多高质量代码，后训练整合推理能力并针对工程场景精选训练任务。报告数据显示，仅一年时间内 Gemini Pro 系列在 Aider Polyglot 编码评测上性能提升了 5 倍，在 SWE-bench Verified 上提升了 2 倍 1。Aider Polyglot 当前指标上，Gemini 2.5 Pro 达到 SOTA。

视频：3 小时上下文窗口显著超过行业平均水平，视频理解基准上超过 GPT-4.1 等近期模型 2。

音频：相比 Gemini 1.5 新增对音频生成任务的支持——包括文字转语音（TTS）和音视频对话生成——并加入因果音频表示以支持低延迟流式音频对话。预训练数据覆盖 200 种以上语言，训练集整合了思考、情感对话和工具使用。

图像：视觉理解相比 Gemini 1.5 系列有显著提升，MMMU 等多模态基准有实质进步。

Gemini 2.5 技术报告封面（Gemini Team, Google，2025 年 6 月更新版） 1

基准数据：优势与差距并存

技术报告期间（2025 年初至 7 月）Gemini 2.5 Pro 的公开基准表现呈现出明显的不均衡性：

评测项目	Gemini 2.5 Pro	对比基准
Aider Polyglot（代码）	SOTA	超越 Claude 3.7 Sonnet
SWE-bench Verified（代码智能体）	63.8%	Claude 3.7 Sonnet 70.3% 3
GPQA (diamond)（科学推理）	领先	超过 GPT-4.5 等
Humanity's Last Exam	SOTA	—
LOFT / MRCR 128k 长上下文	SOTA	—
视频理解（视频基准）	SOTA	超过 GPT-4.1
公共 ASR / AST 音频基准	SOTA	—

SWE-bench Verified 上 Claude 3.7 Sonnet 当时保持领先，但发布后随着 Deep Think 迭代，这一差距在持续收窄。这个差距本身揭示了一个有趣的分歧：Gemini 2.5 Pro 在多模态、长上下文、视频理解等维度上建立了代差优势；代码智能体任务（SWE-bench 测试的是具身代码执行，而非单纯代码生成）在当时仍是 Claude 的强项。

同行评审状态：arXiv 预印本，首发于 2025 年 7 月，截至 2025 年 12 月已更新至 v6。

www.swebench.com

SWE-bench Leaderboards

软件工程基准排行榜，追踪各大模型在代码智能体任务上的真实表现。

正在加载链接预览…

模型家族与成本曲线

Gemini 2.X 不是单一模型，而是一个覆盖 Pareto 前沿全成本区间的家族：

Gemini 2.5 Pro：最强能力，支持 Deep Think
Gemini 2.5 Flash：在较低计算量和延迟下保持优秀推理，性能超过整代 Gemini 1.5 Pro
Gemini 2.0 Flash / Flash-Lite：低延迟低成本端，针对高吞吐场景优化

这种分层策略意味着同一代技术积累（训练数据、后训练方法、架构改进）可以被下放到不同成本档位，而不只集中在顶部旗舰。Gemini 2.5 Flash 的性能超过 Gemini 1.5 Pro 这一事实，印证了这种分层不是降配，而是工程优化的成果。

智能体工作流：长上下文 × 推理 × 多模态的交叉能力

技术报告着重描述了 Gemini 2.5 Pro 在智能体场景的新能力：结合长上下文、多模态输入和推理能力，可以完成此前无法端到端执行的任务类型。论文给出的例证是：基于一段完整的课程视频，模型直接生成可测试学生知识的交互式 Web 应用。这个例子的信息量在于——输入是视频（多模态）、上下文跨越数小时（长上下文）、输出是结构化的可执行应用（推理+代码生成），三种能力必须同时发挥作用 1。

从技术路线判断来看，这与 Anthropic 通过 Claude 的 computer use 能力扩展智能体边界、OpenAI 通过 Operator/o1 系列提升多步推理的方向形成不同切入点——Google 选择把视频原生理解作为智能体能力的独特护城河，而不仅仅做文本 + 工具调用的组合。

评估基准瓶颈：一个诚实的自我批评

技术报告有一段罕见的自我批评值得重视：作者明确指出评估基准的开发速度已经跟不上模型能力提升速度。尤其是推理智能体出现之后，基准很快饱和，新基准制作成本持续攀升——Humanity's Last Exam 中的优质问题，单题制作成本可达 5000 美元 1。

这不只是 Google 的问题，而是整个领域当前正在面对的结构性困境：评估体系的演进速度决定了我们能否准确识别技术突破的边界在哪里。对于追踪大模型技术路线的研究者来说，这是一个比任何单项基准数据都更值得长期关注的信号。

Gemini 2.5 技术报告：MoE 架构、Deep Think 推理与 100 万 token 长上下文

Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

架构：MoE + 原生多模态

思考机制：Deep Think 与可控推理预算

各模态能力提升

基准数据：优势与差距并存

SWE-bench Leaderboards

模型家族与成本曲线

智能体工作流：长上下文 × 推理 × 多模态的交叉能力

评估基准瓶颈：一个诚实的自我批评

参考来源

Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

SWE-bench Leaderboards