
2026/6/29 · 8:16
Grok 4.5、VibeThinker-3B 与 CEO-Bench——AI HOT 今日热点(2026-06-29)
今天的 AI HOT 覆盖 7 条动态:Grok 4.5 进入 SpaceX 和 Tesla 私测,新浪开源 VibeThinker-3B,小模型推理与长期 Agent 经营能力成为主线;产品侧关注模型路由和 coding agent 工作流工具。
Grok 4.5 的信号来自闭门私测,小模型路线的反例来自 VibeThinker-3B,长期经营能力的冷水来自 CEO-Bench。AI HOT 今日 API 只返回 4 个版块、7 条动态,行业动态版块为空;本期按实际返回内容收录,不用白名单外来源补齐栏目 1。
今日主线
模型发布/更新
| 条目 | 发布主体 | 核心内容 | 读者信号 |
|---|---|---|---|
| Grok 4.5 私测 | Elon Musk / xAI | Elon Musk 称 Grok 4.5 基于 1.5T V9 基础模型,并在补充训练中加入 Cursor 数据;模型已在 SpaceX 和 Tesla 进入私测,初步评估接近或可能超过 Opus 2 | 这是厂商口径,不等于公开基准。更值得跟踪的是 xAI 是否真能按月发布从头训练的新模型,以及 Grok Build 工具链会不会变成内部工程效率的验证场。 |
| VibeThinker-3B 开源 | 新浪 / The Decoder | VibeThinker-3B 只有 3B 参数,在 AIME26 等数学、编程基准上对齐部分大模型;但在 GPQA-Diamond 这类知识密集任务上明显落后。模型基于 Qwen2.5-Coder-3B,经 SFT、强化学习、自蒸馏等后训练步骤得到 3 | 小模型能压缩推理模式,但事实知识仍吃参数和覆盖面。工程上可以把它看作 coding/math 专项模型的候选,而不是通用知识模型的替代品。 |
Elon Musk 的原帖本身就是本条消息的关键证据,适合直接打开看原始表述。
正在加载内容卡片…
产品发布/更新
| 工具 | 发布主体 | 解决的问题 | 使用门槛 / 限制 |
|---|---|---|---|
| Wayfinder Router | itsthelore / GitHub | 通过提示词长度、标题、列表、代码、硬约束等结构特征,在本地模型和托管大模型之间做确定性路由;决策在微秒级完成,离线运行,不调用另一个模型 4 | 默认只用结构特征,词汇线索因盲测泛化不足而关闭。团队需要用自己的数据校准阈值,否则「省钱」和「答得好」之间容易失衡。 |
| Adrafinil | kageroumado / GitHub | 这是一款 macOS 菜单栏工具,只在 Claude Code、Codex、Cursor、Gemini CLI、Aider 等 AI coding agent 有活跃会话时阻止 Mac 睡眠;无 agent 工作时,合盖后正常睡眠 5 | 需要 macOS Tahoe 26.4 和 Xcode 26+ 构建环境。它适合长任务 agent 用户,不是普通防睡眠工具。 |
Wayfinder Router 值得单独看仓库,因为它把「模型路由」从又一次模型调用,拆成了可解释的结构评分问题。
正在加载内容卡片…
Adrafinil 则更像一个很具体的 Agent 时代小工具:不是让电脑永远醒着,而是只为仍在跑的 AI coding session 保持唤醒。
正在加载内容卡片…
论文研究
CEO-Bench 的设定很像给 AI 智能体安排一场「500 天创业生存测试」。普林斯顿大学让模型在模拟环境里运营订阅软件公司 NovaMind,起始资金 100 万美元;14 个测试模型中,只有 Claude Fable 5、Claude Opus 4.8 和 GPT-5.5 在最佳运行中超过起始资本 6。
更刺眼的是,一个不调用语言模型的简单规则启发式方法,靠固定定价、配额和针对性开发拿到 1576 万美元,超过除上述三款外的所有模型 6。这说明长期 Agent 评测不能只看单步推理,策略一致性、状态记忆、预算纪律和执行复盘同样是硬能力。
技巧与观点
| 条目 | 发生了什么 | 可以带走的判断 |
|---|---|---|
| AI 对战《文明 VI》 | Liam Wilkinson 搭建 76 个 MCP 工具,让 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等模型进行 23 场《文明 VI》对局;Claude 扮演葡萄牙时研发核弹攻击法国图卢兹,但法国最终以外交胜利获胜 7 | Wilkinson 的观察是,AI 主动检查全局状态只占 1-2%,计划后 10 回合内执行率只有 48-66%。如果这个结论成立,Agent 的短板不只是「不够聪明」,而是看不全局、做不到位。 |
| Artifacts 22 | Nathan Lambert 观察开源模型生态正在从少数中国公司扩展到 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra、Cohere、Mistral、Trillion Labs,以及阿里 Qwen、Google Gemma、NVIDIA 等不同类型玩家 8 | 开源模型不再只是「大模型权重」竞赛,正在分化成主权 AI、产品公司专用小模型、科技巨头生态入口和独立模型厂商几条路线。读者如果跟踪模型生态,需要按动机和分发渠道分层看。 |
收盘判断
今天的 7 条消息都绕不开同一个问题:AI 能力正在从「模型参数和基准分数」转向「能否稳定接进真实工作流」。Grok 4.5 和 VibeThinker-3B 继续推模型边界,Wayfinder Router 和 Adrafinil 处理成本、延迟、电脑休眠这类工程细节,CEO-Bench 和《文明 VI》则把长期执行的短板摆出来。
如果只挑一条后续跟踪,优先看 CEO-Bench 这类长期任务基准会不会被更多团队复现。它比单次问答更接近未来 Agent 在公司里要面对的真实约束:预算、时间、策略、状态,以及出错后能不能改。

围绕这条内容继续补充观点或上下文。