Mollick 说长任务才有价值，Chollet 说工作要重学问题定义 (2026)

过去 24 小时，白名单账号里真正能进入正文的原创不多，但主线很清楚：Ethan Mollick 把 AI 的价值从「回答问题」推向长任务执行，François Chollet 则把未来工作的重心压到问题定义和适应力上。今天这组材料不热闹，却很适合校准企业里最容易误判的一件事：模型强不强，和组织会不会用它，是两道题。

速览

Mollick 认为，许多人还只把模型当 Google 替代品或作业助手；真正有影响力的是把前沿 AI 用在长期、真实、需要代理式推进的问题上。1
他还提醒，非可验证领域的进步可能比预期更快。所谓非可验证领域，就是没有标准答案、很难自动判分的任务，比如战略判断、写作、产品品味和组织沟通。2
在 Fable 游戏实验里，他反复要求 Claude Fable 把游戏做得「more AAA」，模型选择升级画面、Boss 战、机制、音效和配乐，直到碰到 WebGL 的边界。3
Chollet 的判断更像人力市场侧的回应：未来工作会更需要适应力、创造力和复杂问题定义，而不是重复执行或单一专门技能。4

Mollick：别把 AI 停在搜索框

Mollick 这次不是在比较哪家模型分数更高。他抓住的是使用方式：很多模型已经足够胜任搜索替代、作业辅助这类低风险任务，但这些用法未必能带来最大的组织收益。更有影响力的场景，是有人把前沿模型当成可以推进长期任务的代理，让它持续处理真实问题，而不是只问一次、复制一次答案。1

这句话对企业很直接。若一个团队只让 AI 写摘要、查资料、改邮件，模型能力会被压在「单轮输出」里。长任务用法则要求另一套工作设计：任务要能拆成检查点，模型要能访问必要上下文，人要能中途纠偏，最后还要有验收标准。AI 不是自然变成同事的；组织要先把工作拆到它能承担责任的位置。

这也解释了为什么最近几期 Mollick 一直绕不开 Agent、Fable 和 Claude Code。重点不是某个产品名称，而是模型正在从聊天窗口进入流程：它需要记住目标、调用工具、等待反馈、继续修改。读者如果要判断一个 AI 项目是不是有价值，第一问不该是「用了哪个模型」，而该是「它有没有处理一个原本需要人连续跟进的任务」。

非可验证领域：评测开始变难

Mollick 的第二条推文把问题推向评测。他承认，没有可验证领域会让模型训练更难；但他同时认为，模型在这些领域也在变强，而且前沿能力的锯齿感没有他仅从「可验证性」推断的那么严重。2

这里的「锯齿感」可以理解为：模型在数学题、代码题上很强，在开放式判断上突然失手。过去很多人用这个现象提醒企业别过度信任 AI。Mollick 现在补了一层：这个边界仍然存在，但不能只靠「有没有标准答案」来判断模型是否会进步。

对产品和管理团队来说，这会带来一个麻烦。越是接近真实工作的任务，越难用单一分数证明模型有效。销售方案、用户研究、策略备忘录、产品路线图，往往没有唯一正确答案。此时评测就不能只看模型给出的文本是否顺眼，而要看它是否减少返工、是否暴露盲点、是否让团队更快进入下一轮决策。

Fable 实验：模型懂「更像大作」吗

第三条材料更像一个小实验。Mollick 说，他不断要求 Claude Fable 把游戏做得「more AAA」。模型的理解很具体：升级图形、Boss 战、机制，加入自定义音效和配乐，直到触及 WebGL 的限制。3

这件事有两层信号。第一，模型已经能把一个模糊的审美要求翻译成一串工程动作。「AAA」在游戏语境里不是一个单项指标，它混合了画面、内容密度、音频、反馈手感和制作规模。模型能沿着这些维度继续加料，说明它对产品类别的常识正在进入可执行层面。

第二，模糊目标也会带来堆功能的倾向。人类说「更高级」时，真正想要的可能是节奏更好、反馈更清楚、核心循环更紧，而模型可能先理解成更多元素、更大阵仗、更高资源消耗。长任务 Agent 的价值在这里，风险也在这里：它可以持续推进，但如果目标函数不清楚，它也会持续朝错误方向努力。

Chollet：未来工作的门槛前移

Chollet 的推文把同一件事翻到人才侧。他认为，未来工作会要求更高的适应力和创造力，重点会从重复执行或专门技能，转向复杂问题定义。4

这不是「技能不重要」的意思。更准确的说法是：当一部分执行可以交给模型，人的稀缺性会前移到任务定义、约束设置、结果判断和跨领域迁移。会写提示词只是很小的一部分；更关键的是知道什么问题值得交给 AI，交给它之前要准备哪些上下文，什么时候必须停下来由人判断。

把 Chollet 和 Mollick 放在一起看，今天的结论并不复杂。AI 越像一个能持续行动的系统，人越不能只做指令输入员。真正拉开差距的，是谁能把含糊目标改写成可执行问题，谁能在模型给出半成品时看出方向偏了，谁能把一次输出接进下一轮真实工作。过去的自动化淘汰重复动作；今天这批 Agent 更先考验的是问题定义能力。

Mollick 说长任务才有价值，Chollet 说工作要重学问题定义

速览

Mollick：别把 AI 停在搜索框

非可验证领域：评测开始变难

Fable 实验：模型懂「更像大作」吗

Chollet：未来工作的门槛前移

Fuentes de referencia

Más de este canal

Contenido relacionado