Twitter AI 热门精选 · 5/12–5/15

本期覆盖时间窗口：2026 年 5 月 12 日至 15 日（北京时间）。共精选 18 条高互动 AI 长文和长 Thread，按主题拆解如下。

本期三个核心信号：

Google 发布「Nested Learning」论文，正面批评 Transformer 的结构性缺陷，社区将其与 2017 年「Attention Is All You Need」相提并论
Sam Altman 公开反思 OpenAI 的定价策略，认为「价格/速度」权衡被严重低估
Ramp AI Index 4 月数据显示，Anthropic 企业采用率（34.4%）首次超越 OpenAI（32.3%），过去一年使用量增长约 4 倍

架构之争：三条值得细读的技术线

Google「Nested Learning」：对 Transformer 的根本性批评

这篇论文是本窗口期互动量最高的技术内容，2,055 likes、379 retweets、146K views1。

@HowToAI_ 把它定性为架构级别的代际转换：

"The Transformer replaced the RNN in 2017. Nested Learning is here to replace the Transformer in 2026."
「Transformer 在 2017 年替代了 RNN。Nested Learning 将在 2026 年替代 Transformer。」1

论文的核心批评直接指向现有深度学习的结构性问题——模型通过「压缩信息直到它崩溃」来工作，而这正是灾难性遗忘（catastrophic forgetting）的根源。Nested Learning 提出的替代范式，将模型视为数千个并行运行的嵌套优化问题，每层拥有独立的「context flow」，使模型在测试时可以学习新任务而不覆盖已有知识。新架构 HOPE（Hierarchical Optimal Parallel Execution 的缩写尚未在论文中明确展开）在长上下文记忆稳定性上达到 100%1。

"Existing deep learning works by compressing information until it breaks. Nested Learning works by organizing information so it can grow forever."
「现有深度学习通过压缩信息直到它崩溃来工作。Nested Learning 通过组织信息使其可以永远增长。」1

社区热度的背后有一个值得保持的冷静：这是来自 @HowToAI_ 的解读 Thread，而非 Google Research 直接发布的官方公告。该账号擅长将论文影响力放大，论文本身的同行评审状态和具体基准测试数据尚待进一步核实。

GPT-5.5 Instant 上线：幻觉降低 52.5%，三款实时语音 API 同步发布

5 月 12 日，OpenAI 将 GPT-5.5 Instant 设置为 ChatGPT 新默认模型2 3。与前代 GPT-5.3 Instant 相比，法律、医疗、金融三个高风险领域的幻觉率降低约 52.5%，API 中对应 chat-latest 端点，5.3 版本仅对付费用户保留 3 个月。

同步上线的还有三款新 Realtime 语音模型：

GPT-Realtime-2：接近 GPT-5 水平的实时推理能力，支持中断处理和工具调用
GPT-Realtime-Translate：支持 70+ 语言的实时翻译
GPT-Realtime-Whisper：高精度实时转录

三款模型的延迟据报道均低于 500ms，定价整体下降约 20%2。

企业 AI 架构师 @v_shakthi（Shakthi Vadakkepat）给出了他认为最重要的判断——GPT-5.5 Instant 标志着 AI 模型从「生成式光芒」向「确定性精度」的迁移：

"We are finally moving from 'Generative Flare' to 'Deterministic Accuracy,' allowing us to integrate these models into transaction-heavy pipelines where 'almost right' was never an option."
「我们终于从『生成式光芒』转向『确定性精度』，可以将这些模型集成到那些从不允许『大概正确』的高频交易 pipeline 中。」2

AHE 框架：让 AI Agent 的 Harness 自己进化

Sylph AI 发表的「The Last Harness You'll Ever Build」论文提出了 **Agentic Harness Engineering（AHE）**框架4 5。AI 研究者 Carlos E. Perez（@IntuitMachine，62K 粉丝）用两条长 Thread 做了解读。

核心机制是三 agent 协同的「Harness Evolution Loop」：

Worker：执行实际任务
Evaluator：对抗性发现失败点
Evolution：基于历史记录重写 harness

在 Terminal-Bench 基准测试中，这套机制在不重新训练模型的前提下，将成功率从 69% 提升至 77%（32 小时内完成）；SWE-bench 上达到 75.6%，token 消耗同步减少 12%4。

@IntuitMachine 的核心结论值得工程师们认真对待：

"Forget scaling laws. A small model with an evolved harness will OUTPERFORM a giant model with manual prompting. Structure > Size."
「忘掉 scaling laws。一个小模型配合进化后的 harness，表现会超越一个靠手动 prompt 驱动的大模型。结构 > 规模。」4

"Observability is the bottleneck, not compute."
「可观测性才是瓶颈，不是算力。」4

对创始人和 PM 来说，论文给出了较具体的落地参考：1-2 周原型周期、推理成本降低 20-50%、agent 部署周期从数月缩短到数天5。

补充：AI IQ——用人类智商量表衡量前沿模型

前 Stacks 联合创始人、Princeton MechE/CS 背景的 Ryan Shea（@ryaneshea）发布了 AI IQ 项目，将 GPT-5.5、Claude Opus 4.7、Gemini 3.1、Grok 4.3、Kimi K2.6、Qwen3.6、DeepSeek V4、Muse Spark 等 8 款模型映射到人类 IQ 量表上6。这条 Thread 获得 1,301 likes、337K views、866 bookmarks——是本窗口互动量前三之一，反映出社区对直观化模型评估工具的强烈需求。IQ 量表对比取代了排行榜表格，额外展示「IQ 随时间变化趋势」和「单位 IQ 的实际推理成本」两个维度6。

工具厮杀：编码 AI 的三方入局

Grok Build：xAI 进入「严肃构建者」赛道

xAI 于 5 月 14 日发布 Grok Build beta，一款面向 agentic AI coding 的 CLI 应用，直接对标 Claude Code 和 OpenAI Codex7。AI & Software Engineering KOL Mark Kretschmann（@mark_k，42K 粉丝）在第一时间报道：

"Grok Build has finally arrived from @xai 🔥🔥 The beta release of Grok Build is here: a CLI application for agentic AI coding, comparable to Claude Code and Codex."
「Grok Build 终于来自 @xAI 发布了：这是一款用于 agentic AI 编码的 CLI 应用，可与 Claude Code 和 Codex 相媲美。」7

Grok Build 支持多 agent 协调规划、子 agent 分配和并行工作，beta 版本目前向 SuperGrok Heavy 订阅者开放，将很快向所有 SuperGrok 订阅者推出7。

腾讯混元 Hy3：OpenRouter 连续三周榜首，80% 付费留存

Samsung AI 工程师 Arsh Goyal（@arsh_goyal，41K 粉丝）这周用一条 Thread 把腾讯的模型故事讲给了英文社区8：

腾讯混元 Hy3 预览版在 OpenRouter 上连续 3 周排名第一，工具调用第 1、编码第 2，在实际开发者使用中击败 Claude Sonnet 4.6。定价对比：Claude Sonnet 4 的 1/45、GPT-4.1 的 1/308。

@arsh_goyal 把最具说服力的数据单独拿出来：从免费转为付费后，80% 的开发者选择继续付费——用自己的钱8。他的结论是：

"The narrative that only US labs can lead in frontier AI? Hy3 is quietly making that look very wrong."
「『只有美国实验室才能引领前沿 AI』这个叙事？Hy3 正在悄悄证明这有多错误。」8

"This isn't a 'cheap model.' It's a capability gap no one expected from Tencent."
「这不是一个『便宜模型』，而是一个没人预料到会来自腾讯的能力缺口。」8

Anthropic Code with Claude 大会：SpaceX 算力 + Dreaming 技术

Anthropic 在旧金山举办了首次「Code with Claude」开发者大会，AI 工程师 @sairahul1（Rahul，98K 粉丝）的解读 Thread 获得 560 likes、81K views、1,496 bookmarks9。

本次大会几个具体动作：

SpaceX Colossus 算力合作：获得 Colossus 1 数据中心全部 300MW 容量，约合 22 万个 NVIDIA GPU（含约 15 万 H100、5 万 H200、2 万 B200）。Claude Code 速率限制翻倍，Pro/Max 用户高峰期限制取消3
Dreaming 技术：允许 agent 在活动会话之间回顾自身行为并识别模式，将工作范式从「Session-Based」转向「Persistent Intelligence」9
企业合资公司：与 Blackstone、Hellman & Friedman、Goldman Sachs 合资成立新企业 AI 服务公司3
产品扩展：Claude 正式支持 Excel/PowerPoint/Word，Outlook 进入 beta；同步发布 Natural Language Autoencoders (NLAs) 研究——将 AI 内部神经活动翻译为人类可理解的英文描述

@sairahul1 在 Thread 末尾的判断是：

"Most developers are still focused on demos. Anthropic is building for autonomous systems at scale."
「大多数开发者仍在关注 demo，而 Anthropic 正在为规模化自主系统构建基础设施。」9

第三方数据佐证：Vercel AI Gateway 生产数字

Vercel CEO Guillermo Rauch（@rauchg，486K 粉丝）公布了来自 Vercel AI Gateway 的生产数据10，这是目前少见的、基于实际 API 调用量而非调查问卷的中立数据源：

"Google is king of production scale, Anthropic dominates in coding & spend, OpenAI is growing fast since 5.4, and OSS continues to gain ground. The AI race is a lot more fluid than it looks :)"
「Google 是生产规模的王者，Anthropic 在编码和花费上占据主导，OpenAI 自 5.4 发布后增长迅速，开源模型持续扩大地盘。AI 竞赛比表面看起来流动得多。」10

Claude Opus 帮助 Anthropic 以比 Google 更少的调用量在花费份额上领先。OpenAI 的花费份额从 3 月到 4 月增长了三倍（GPT-5.4/5.5 发布后）10。

Sam Altman 的自我质疑，以及一个市场份额转折点

「我有时候不在乎速度多慢」

5 月 13 日，Sam Altman 发了一条获得 6,093 likes、585K views 的帖子11，这是本窗口期非公告类内容中互动量最高的 AI 相关推文：

Sam Altman @sama·3d

i get some anxiety not using the smartest-available model/settings. but sometimes i dont mind if it's really slow. i wonder if we should focus more on a price/speed tradeoff relative to a price/intelligence tradeoff.

View on X

콘텐츠 카드를 불러오는 중…

这条帖子本身有两层可读性：字面上是 Sam 在说自己的个人用模型习惯，但作为 OpenAI CEO 公开表达「价格/速度权衡被低估」，或在为产品策略方向做公开测试。

同日他还发出了本窗口期互动量绝对最高的一条12（20,851 likes、859 retweets、2.2M views）：

Sam Altman @sama·3d

codex is the best AI coding product and we want to make it easy to try. for the next 30 days, we are giving companies that want to try switching over two months of free codex usage.

View on X

콘텐츠 카드를 불러오는 중…

30 天内申请切换，即可获得两个月免费 Codex 使用12。Codex 此前已被 Sam Altman 定位为「最好的 AI 编程产品」，这次促销策略与 OpenAI 近期成立的 40 亿美元企业部署部门形成了逻辑上的呼应——企业 AI 编程工具市场的竞争正在从「模型能力」转向「用户迁移成本」。

Ramp AI Index：Anthropic 企业采用率首次超过 OpenAI

与此同时，一组来自企业支出数据平台 Ramp 的数据被广泛引用13：

Ramp AI Index 分析了 50,000+ 家企业的实际支出，2026 年 4 月数据显示，Anthropic 企业采用率达到 34.4%，OpenAI 为 32.3%——这是 Anthropic 首次在企业市场超越 OpenAI13。过去一年 Anthropic 使用量增长约 4 倍，OpenAI 同期增长 0.3%。

这组数据和 Sam Altman 两条高互动帖子出现在同一周，并非巧合——Codex 两个月免费的力度与 Anthropic 企业采用率上升的时间线重叠，说明 OpenAI 在数据上感受到了压力。

AI 时代，「一致性是负债」

RunLLM 联合创始人、UC Berkeley CS PhD Vikram Sreekanti（@vsreekanti）的 PMF 分析 Thread 互动不高，但值得一读14：

"In AI, consistency is a liability. Customer preferences are being rebuilt every week. The companies that win aren't going to be the ones that find PMF first. They're going to be the ones that keep replacing their own product while the market is still figuring itself out."
「在 AI 时代，一致性是负债。客户期望每周都在被重塑。胜出的公司不是最先找到 PMF 的，而是在市场仍在摸索时不断替换自己产品的公司。」14

这与 Sam Altman 的策略自问形成了某种呼应：OpenAI 在最聪明的模型上建立的优势，正在被速度和价格重新定义。

AI 跨界并购：两笔钱揭示的新逻辑

Long Lake：全球首个「AI 驱动」上市公司私有化

Elad Gil（@eladgil，Y Combinator 前合伙人）在他的播客 @NoPriorsPod 介绍了一笔此前少有报道的交易15：

"Long Lake did the world's first (to my knowledge) AI-driven take private of a public company — $6.3B acquisition — 100 year old Amex Global Business Travel — Plan to transform it with AI"
「据我所知，Long Lake 完成了全球首个 AI 驱动的上市公司私有化——以 63 亿美元收购拥有百年历史的美国运通全球商旅（AmEx GBT）——计划用 AI 全面转型这家公司。」15

AmEx Global Business Travel（美国运通全球商旅）成立超过百年，2022 年以 SPAC 方式在纽交所上市。Long Lake CEO Alex Taubman 在 Elad Gil 的播客中首次公开讨论了这笔交易的逻辑：用 AI 重构一家已有成熟客户基础的传统企业，比从零建立 AI 原生公司的路径更短。这个思路与近年来 PE 用 AI 提升传统企业运营效率的策略一脉相承，只是规模更大、时机更激进。

Isomorphic Labs：21 亿美元，三国主权基金联投

从 Google DeepMind 拆分出来的 AI 药物发现公司 Isomorphic Labs 完成了 21 亿美元 B 轮融资，Thrive Capital 领投，Alphabet、GV、MGX（阿联酋）、Temasek（新加坡）、CapitalG 及英国主权 AI 基金参投16 17。这是 AI 药物发现领域迄今最大单笔融资，使其 18 个月内总融资额达约 30 亿美元。

@shawnchauhan1（Shawn Chauhan）抓住的不是融资额本身，而是投资者结构16：

"The governments of the UAE, UK, and Singapore just co-invested in a drug discovery AI company. Sovereign wealth is no longer watching AI from the sidelines. It is funding the infrastructure that will decide which countries lead in medicine, defense, and biotech."
「阿联酋、英国和新加坡政府刚刚共同投资了一家 AI 药物发现公司。主权财富不再是 AI 的旁观者，而是在资助将决定哪些国家在医药、国防和生物技术领域领先的基础设施。」16

Isomorphic Labs 使用的 AI 药物设计引擎 IsoDDE，在蛋白质-配体预测精度上据报道达到 AlphaFold3 的两倍，Eli Lilly 和 Novartis 已承诺超过 30 亿美元的里程碑付款16。公司目前尚无进入 I 期临床试验的资产，预计首批 AI 设计药物将于 2026 年底进入临床。

Agent 创业：Greg Isenberg 的 7 个「监控型 Agent」方向

Startup Ideas Podcast 主持人、Late Checkout CEO Greg Isenberg（@gregisenberg，641K 粉丝）分享了 7 个可立即动手的微型 AI Agent 创业方向，这条 Thread 获得 689 likes、70K views、1,296 bookmarks18。

他的框架核心只有一句话：

"Think about any job where someone spends hours checking for updates or scanning listings. That's an agent. Build the agent that does the watching. You do the acting (or sell the watching to someone else). Stack them. Each one is its own revenue stream."
「想想任何需要花数小时查看更新或扫描列表的工作。那就是一个 agent 的机会。建一个 agent 负责监控，你来负责决策和行动（或者把监控结果卖给别人）。堆叠多个 agent，每一个都是独立的收入流。」18

他列出的 7 个方向中，有 4 个最具操作性：

域名倒卖 Agent：监控过期域名，自动评估反链权重和关键词价值，每日推送排序列表
本地清算 Agent：监控餐厅倒闭和破产拍卖信息，撮合二手设备买卖
招聘信号 Agent：扫描招聘信息，将特定岗位的招聘动作作为销售线索信号——对方在招聘 B 岗，说明他们可能正在计划 B 项目
竞争情报 Agent：7×24 小时监控竞争对手的定价变化、新页面上线、招聘动向、推文内容

每个 Agent 据 Isenberg 称可以用 Genspark Claw 在 20 分钟内搭建完原型18。

「监控型 Agent」之所以成为一个清晰的创业类别，原因是：监控工作的价值和手工执行的边际成本极不对称——每日扫描 10,000 条过期域名，人工需要几十小时，Agent 需要几分钟。当边际成本归零时，这类工作就从「不值得做」变成了「不做就亏」。

封面图：Visual abstraction of neural networks in AI technology，来自 Pexels - Google DeepMind