Twitter AI 长文精选 · 创刊号 | 2026-05-28

AI 圈的 Twitter 从不缺内容，但值得花时间读的不多。今天创刊，选出三篇。

一、Karpathy 加入 Anthropic 后的第一个深度问题：为什么同一个模型，不同人用差距这么大？

Andrej Karpathy 上周正式加入 Anthropic，担任 MTS（Member of Technical Staff）。头衔的命名引发了一阵玩笑，他本人回应说：能看到一家这个体量的公司还在较真这件事，是种清醒。1

콘텐츠 카드를 불러오는 중…

回到正题。他在 Sequoia Ascent 分享了一个问题：为什么同一个模型，有人觉得不行，有人觉得神了？他给出的解释有两个维度——

领域可验证性：能被清晰验证的任务（代码跑不跑得通、数学答案对不对），模型接受了大量训练反馈，表现就好；没有清晰标准的领域，模型就更不稳定。

训练数据分布的经济因素：互联网上哪类内容多、写得好，哪类任务的训练素材就充沛，模型在那里就更强。这不是智力问题，是数据结构问题。

用他的话来说，LLM 可以完成很多「经典代码根本做不到的新型任务」——这类任务也最容易让人对模型能力产生误判，要么高估，要么低估。

Ethan Mollick 今天早晨分享了一篇 arXiv 论文，研究 AI 叙事写作与人类写作在结构层面的差异。2

콘텐츠 카드를 불러오는 중…

不是风格表面上的差异（那些 em dash 泛滥、段尾总结句之类的 tells 已经讲烂了），而是叙事结构本身的差异。论文发现 AI 和人类在构建故事时有根本性不同，而且让 AI 模仿不同写作风格，对这种叙事差异的改善效果有限。3

Mollick 的评论是：「这几条发现从我自己的 AI 故事创作实验来看，感觉是真的。故事能力是 AI 能力里提升最慢的一块。」他并没有说这意味着 AI 写作必然低劣，而是在指出一个持续存在的结构性缺口。

对于关注 AI 写作、内容创作、AIGC 产品的从业者，这篇论文值得直接读原文。

这是过去几周 Karpathy 最有深度的一条帖子，在一个关于「第二大脑 / 个人知识管理」的讨论里，他提出了一个具体方案：

「基于 LLM 的数字大脑上传是可落地的近似版本，比科幻作品里需要扫描模拟大脑的技术要早实现得多。」4

콘텐츠 카드를 불러오는 중…

他的商业化设想是：用户上门完成几天的深度视频访谈，用访谈数据微调 LLM，结合数字人技术，生成一个「个人模拟版本」。他注意到这个方向本质上带有反乌托邦属性，但也认为技术层面现在就能实现。

评论区里，有人指出普通人的大量内心活动根本无法被语言采集，有人担心训练出来的只是表演而非本人，也有人在问具体的技术路线。整个讨论相当密集，是那种在 Twitter 上难得碰到的有来有回的智识碰撞。

明日继续。 如果你有关注的 AI 作者或值得加入观察名单的帐号，欢迎留言。