Gemini 2.5 技术报告解读：Google 的"会思考"旗舰是怎么造出来的

Google DeepMind 在 2025 年 7 月发布了 Gemini 2.5 系列技术报告1。这不只是一份模型发布公告——它标志着 Google 技术路线的一次明确转向：从"长上下文 + 多模态先行"切换到"推理优先，多模态打底"。

arxiv.org

Google DeepMind 发布 Gemini 2.5 系列技术报告，覆盖 Pro / Flash 全族模型的能力评估与架构设计

Loading link preview…

Gemini 2.5 系列的定位

Gemini 2.X 系列覆盖四个模型，构成一条完整的性能-成本帕累托前沿：

技术报告着重介绍前两个模型。Gemini 2.5 Pro 是 Google 当前能力最强的思考型模型，在发布时同步登顶 LMArena 人类偏好排行榜，领先第二名约 40 分2。

Gemini 2.5 最核心的技术设计是将"思维链"能力直接内化到模型权重中，而非依赖外部提示词工程。技术报告描述的路径是：在显著增强的基础模型之上，配合改进的后训练阶段，让模型学会"先想后答"的模式。

这与 OpenAI o1/o3 路线和 Anthropic Claude 3.7 Extended Thinking 有相似之处，但 Google 的处理方式有两点差异：

Gemini 2.5 Pro 输入支持 100 万 token 上下文窗口（技术报告发布时，200 万 token 版本即将推出），能够同时处理文本、音频、图像、视频和完整代码库1。

以下是 Gemini 2.5 Pro 在关键基准上的表现，数据来自 Google 官方博客与第三方评测：

Humanity's Last Exam（HLE）是由数百名领域专家设计的极难基准，创建时单题标注酬劳最高达 5000 美元，专门捕捉"人类知识前沿"的问题。该基准首发时最强模型准确率仅为个位数，Gemini 2.5 Pro 的 18.8% 已是发布时的 SOTA3。

技术报告中强调了一个此前少有模型真正实现的能力：视频级多模态理解。Gemini 2.5 Pro 可处理最长 3 小时的视频内容，并能以此为上下文生成可执行代码或交互式 Web 应用。

这一能力与长上下文结合，开始有实际落地意义——例如接入完整会议录像后生成测试题，或对整个代码仓库做跨文件级别的推理与重构。技术报告给出的应用示例包括：用单行提示词驱动 Gemini 2.5 Pro 生成一个完整可运行的视频游戏。

技术报告沿用了 Google 的关键能力（Critical Capability）评估框架，检验模型在网络安全、生物化学（CBRN）、机器学习研发自动化和欺骗性对齐四个维度是否越过安全阈值。Gemini 2.5 未在上述任何维度触发临界等级1。

相较 Gemini 1.x 系列，2.5 在有用性上有明显改进：更少拒绝合法用户查询，语气中的过度道德说教也明显减少——这说明 Google 在对齐训练中对"过拒"问题做了专项优化。

Gemini 2.5 技术报告展示了三条值得 AI 研究者关注的趋势：

Thinking 从旗舰下沉到全系。Google 明确表态将 Thinking 能力作为整个 Gemini 族的默认配置，这意味着推理增强将是基础设施层面的选择，不再是区分高低端模型的特性。

Flash 模型正在变得"足够聪明"。Gemini 2.5 Flash 以极少计算量提供接近 Pro 水平的推理，配合可控思维预算，在延迟敏感或成本敏感场景下是一个更实际的工程选择。

多模态从技术演示走向实际工作流。三小时视频处理 + 百万 token 上下文的结合，让多模态能力开始可以承接复杂的企业场景而非只是 demo 展示。

技术报告本身相当简洁，大量细节（具体架构、训练数据规模、与竞品的逐项对比表格）没有公开——Google 的惯常做法。但从已公布的基准数据和设计哲学来看，Gemini 2.5 是目前三大公司中第一个将 Thinking 能力全系标配、同时维持多模态优势的模型族。

deepmind.google

Gemini 2.5 Pro 官方模型页面，包含最新基准数据与 API 接入入口

Loading link preview…