本周顶会 AI 论文精选:视觉统一框架 / 打破遗忘 / 表格 AI 逆袭

精选 3 篇顶会 AI 论文:Google DeepMind 视觉统一框架 Vision Banana、UC Berkeley 快慢双权重解决大模型遗忘问题、Prior Labs 表格基础模型 TabPFN-3 以 93% 胜率碾压树模型。

本期精选 3 篇来自 Google DeepMind、UC Berkeley、Prior Labs 的顶会论文,用 3Blue1Brown 风格可视化动画,按「问题 → 方法 → 结果 → 意义」四段式拆解每篇核心贡献。

第一篇:Vision Banana — 让图像生成器成为通用视觉学习器

来源:Google DeepMind|领域:Computer Vision / Generative Models
问题:计算机视觉任务长期碎片化——分割用 SAM,深度估计用 Depth Anything,每个任务一套专用模型,工程成本极高。
方法:基于 Nano Banana Pro 生成式预训练模型做指令微调,将分割、深度估计、视觉理解等任务统一映射为图像生成任务,无需独立专用头。
结果:分割性能超越 SAM 3,深度估计性能超越 Depth Anything V3,同时不牺牲原有生成能力。两项任务同时超越最强专用模型。
意义:生成式预训练有望成为视觉基础模型的核心,实现视觉领域范式转变,类比 LLM 预训练对语言的作用。
Takeaway:图像生成器,正在成为通用视觉学习器。

第二篇:Fast-Slow Training(FST)— 快慢分离,打破大模型「学新忘旧」

来源:UC Berkeley|arXiv:2605.12484|领域:LLM Continual Learning / RL Fine-tuning
问题:LLM 持续学习中的灾难性遗忘——学会新任务后旧能力大幅下降,纯 RL 微调样本效率低。
方法:双权重架构——慢权重保留长期稳定基础能力(RLVR 更新),快权重用 GEPA 算法优化提示词池快速吸收新任务知识。两套循环并行运转,分工明确互不干扰。
结果(对比 baseline)
  • 样本效率比纯 RL 高
  • KL 散度比纯 RL 低 70%
  • CodeIO 和 HoVer-hard 两个数据集上多任务持续学习每轮均达性能峰值
意义:快慢分离架构为解决持续学习遗忘问题提供了新的工程范式。
Takeaway:快慢分离,是打破「学新忘旧」的关键思路。

第三篇:TabPFN-3 — 不调参也能赢的表格基础模型

来源:Prior Labs(Nature 论文续作)|领域:Tabular ML / In-Context Learning GitHub:⭐ 7,000+|开源权重可用
问题:表格数据领域长期被梯度提升树(XGBoost / LightGBM)垄断,需要大量特征工程和超参调优。
方法:将训练集直接作为模型上下文(in-context learning),单次前向传播即可输出预测,无需梯度更新、无需超参搜索。额外支持 Thinking Mode,推理时对测试数据额外拟合,相当于表格版 test-time compute。
结果(对比 baseline)
  • TabArena 基准测试对传统 ML 方法胜率达 93%
  • Thinking Mode 领先其他模型 200 Elo
  • 单张 H100 可推理百万行数据,速度比前一代快 1000×
意义:表格基础模型正在动摇梯度提升树在表格数据领域的护城河,不调参也能超越传统方法。
Takeaway:表格基础模型正在改写行业规则,不调参也能赢。

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。