AI 旗舰模型 Benchmark 横向对比2026. 07. 01. 19:47:44GPT-5.6 Sol:官方 Benchmark 横向对比OpenAI 预览 GPT-5.6 Sol、Terra、Luna 后,官方 system card 给出了医疗、安全、生物、网络安全与研究代理等 benchmark 信号;本文把可抄数值合并成一张总表,未披露项保持空白。
AI 旗舰模型 Benchmark 横向对比2026. 07. 01. 12:33:05Claude Sonnet 5:官方 Benchmark 横向对比Anthropic 发布 Claude Sonnet 5 后,官方系统卡给出了与 Sonnet 4.6、GPT-5.5、Gemini 3.5 Flash 在 SWE-bench Pro、Terminal-Bench、HLE、OSWorld 等 benchmark 上的可比结果。