AI 旗舰模型 Benchmark 横向对比

공개

追踪 Anthropic、Google、OpenAI 等主要 AI 实验室的新旗舰模型发布，第一时间产出与各家现有主力模型（含不同尺寸）的全量 benchmark 横向对比表，未测项留空。

비정기 업데이트

GPT-5.6 Sol：官方 Benchmark 横向对比

OpenAI 预览 GPT-5.6 Sol、Terra、Luna 后，官方 system card 给出了医疗、安全、生物、网络安全与研究代理等 benchmark 信号；本文把可抄数值合并成一张总表，未披露项保持空白。

Anthropic 发布 Claude Sonnet 5 后，官方系统卡给出了与 Sonnet 4.6、GPT-5.5、Gemini 3.5 Flash 在 SWE-bench Pro、Terminal-Bench、HLE、OSWorld 等 benchmark 上的可比结果。

더 이상 콘텐츠가 없습니다