Grok 4.5、VibeThinker-3B 与 CEO-Bench——AI HOT 今日热点（2026-06-29）

Grok 4.5 的信号来自闭门私测，小模型路线的反例来自 VibeThinker-3B，长期经营能力的冷水来自 CEO-Bench。AI HOT 今日 API 只返回 4 个版块、7 条动态，行业动态版块为空；本期按实际返回内容收录，不用白名单外来源补齐栏目 1。

今日主线

版块	条数	读者该先看什么
模型发布/更新	2	Grok 4.5 进入 SpaceX 和 Tesla 私测，VibeThinker-3B 把「小参数 + 强推理」的边界推到台前 1
产品发布/更新	2	两个工具都围绕 Agent 工作流降成本：一个做本地/托管模型路由，一个只在 coding agent 工作时阻止 Mac 睡眠 1
论文研究	1	CEO-Bench 用 500 天模拟经营测试长期策略，结果显示多数模型仍难持续执行一套连贯策略 1
技巧与观点	2	《文明 VI》对局和开源生态观察都指向同一件事：模型能力变强后，感知、执行和生态分工开始成为新瓶颈 1

模型发布/更新

条目	发布主体	核心内容	读者信号
Grok 4.5 私测	Elon Musk / xAI	Elon Musk 称 Grok 4.5 基于 1.5T V9 基础模型，并在补充训练中加入 Cursor 数据；模型已在 SpaceX 和 Tesla 进入私测，初步评估接近或可能超过 Opus 2	这是厂商口径，不等于公开基准。更值得跟踪的是 xAI 是否真能按月发布从头训练的新模型，以及 Grok Build 工具链会不会变成内部工程效率的验证场。
VibeThinker-3B 开源	新浪 / The Decoder	VibeThinker-3B 只有 3B 参数，在 AIME26 等数学、编程基准上对齐部分大模型；但在 GPQA-Diamond 这类知识密集任务上明显落后。模型基于 Qwen2.5-Coder-3B，经 SFT、强化学习、自蒸馏等后训练步骤得到 3	小模型能压缩推理模式，但事实知识仍吃参数和覆盖面。工程上可以把它看作 coding/math 专项模型的候选，而不是通用知识模型的替代品。

Elon Musk 的原帖本身就是本条消息的关键证据，适合直接打开看原始表述。

正在加载内容卡片…

产品发布/更新

工具	发布主体	解决的问题	使用门槛 / 限制
Wayfinder Router	itsthelore / GitHub	通过提示词长度、标题、列表、代码、硬约束等结构特征，在本地模型和托管大模型之间做确定性路由；决策在微秒级完成，离线运行，不调用另一个模型 4	默认只用结构特征，词汇线索因盲测泛化不足而关闭。团队需要用自己的数据校准阈值，否则「省钱」和「答得好」之间容易失衡。
Adrafinil	kageroumado / GitHub	这是一款 macOS 菜单栏工具，只在 Claude Code、Codex、Cursor、Gemini CLI、Aider 等 AI coding agent 有活跃会话时阻止 Mac 睡眠；无 agent 工作时，合盖后正常睡眠 5	需要 macOS Tahoe 26.4 和 Xcode 26+ 构建环境。它适合长任务 agent 用户，不是普通防睡眠工具。

Wayfinder Router 值得单独看仓库，因为它把「模型路由」从又一次模型调用，拆成了可解释的结构评分问题。

github.com · GitHub 仓库

itsthelore/wayfinder-router

https://github.com/itsthelore/wayfinder-router

正在加载内容卡片…

Adrafinil 则更像一个很具体的 Agent 时代小工具：不是让电脑永远醒着，而是只为仍在跑的 AI coding session 保持唤醒。

github.com · GitHub 仓库

kageroumado/adrafinil

https://github.com/kageroumado/adrafinil

正在加载内容卡片…

论文研究

CEO-Bench 的设定很像给 AI 智能体安排一场「500 天创业生存测试」。普林斯顿大学让模型在模拟环境里运营订阅软件公司 NovaMind，起始资金 100 万美元；14 个测试模型中，只有 Claude Fable 5、Claude Opus 4.8 和 GPT-5.5 在最佳运行中超过起始资本 6。

更刺眼的是，一个不调用语言模型的简单规则启发式方法，靠固定定价、配额和针对性开发拿到 1576 万美元，超过除上述三款外的所有模型 6。这说明长期 Agent 评测不能只看单步推理，策略一致性、状态记忆、预算纪律和执行复盘同样是硬能力。

技巧与观点

条目	发生了什么	可以带走的判断
AI 对战《文明 VI》	Liam Wilkinson 搭建 76 个 MCP 工具，让 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等模型进行 23 场《文明 VI》对局；Claude 扮演葡萄牙时研发核弹攻击法国图卢兹，但法国最终以外交胜利获胜 7	Wilkinson 的观察是，AI 主动检查全局状态只占 1-2%，计划后 10 回合内执行率只有 48-66%。如果这个结论成立，Agent 的短板不只是「不够聪明」，而是看不全局、做不到位。
Artifacts 22	Nathan Lambert 观察开源模型生态正在从少数中国公司扩展到 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra、Cohere、Mistral、Trillion Labs，以及阿里 Qwen、Google Gemma、NVIDIA 等不同类型玩家 8	开源模型不再只是「大模型权重」竞赛，正在分化成主权 AI、产品公司专用小模型、科技巨头生态入口和独立模型厂商几条路线。读者如果跟踪模型生态，需要按动机和分发渠道分层看。

收盘判断

今天的 7 条消息都绕不开同一个问题：AI 能力正在从「模型参数和基准分数」转向「能否稳定接进真实工作流」。Grok 4.5 和 VibeThinker-3B 继续推模型边界，Wayfinder Router 和 Adrafinil 处理成本、延迟、电脑休眠这类工程细节，CEO-Bench 和《文明 VI》则把长期执行的短板摆出来。

如果只挑一条后续跟踪，优先看 CEO-Bench 这类长期任务基准会不会被更多团队复现。它比单次问答更接近未来 Agent 在公司里要面对的真实约束：预算、时间、策略、状态，以及出错后能不能改。

Grok 4.5、VibeThinker-3B 与 CEO-Bench——AI HOT 今日热点（2026-06-29）

今日主线

模型发布/更新

产品发布/更新

论文研究

技巧与观点

收盘判断

参考来源

相似内容