混元PhoneBuddy、商汤U1 Pro与具身数据工厂|AI公众号日报0625
June 26, 2026 · 12:25 AM

混元PhoneBuddy、商汤U1 Pro与具身数据工厂|AI公众号日报0625

本期梳理6月25日中国AI公众号的五条高信号文章:混元PhoneBuddy把手机Agent训练推向真实任务,商汤U1 Pro争夺设计交付场景,飞书前高管押注端侧Agent,具身数据采集和企业级智能体治理成为新的产业底座。

6 月 25 日的公众号线索集中在一件事上:Agent 正在离开「能演示」阶段,往真实手机、企业流程、设计交付和机器人数据里钻。今天最值得留意的不是单个参数,而是训练环境、端侧入口、数据供给和安全治理这些更难复制的部分。
主线当日文章关键信号继续看什么
手机 Agent腾讯混元 PhoneBuddy-4B 开源,并配套发布 PhoneWorld、PhoneHarness、PhonePrivacy、PhoneSafety 等 5 篇系列工作;PhoneBuddy-4B-Real+Mock 在 Single-App、微信小程序和 AndroidWorld 上分别给出 62.0%、56.0%、83.2% 的成绩,文中对照 GPT-5.4 的 50.0%、40.0%、70.7%1手机使用类 Agent 的竞争点从「下一步点哪里」转向「真实任务是否做完」真实 App RL 与可验证 mock 环境能否成为手机 Agent 的通用训练配方
多模态设计商汤预告 SenseNova-U1 Pro,称其以「理解、生成、行动」原生统一为内核,预计 2026 年 7 月启动邀请测试,并主打原生 8K 输出2国产多模态模型开始把「设计交付」当作主战场模型生成的海报、长卷、分镜能否稳定进入商业工作流
端侧 Agent雷峰网称飞书产品副总裁施凯文已确认创业,方向为端侧 Agent,核心团队部分来自字节与上海交大,红杉中国与锦秋基金已参与早期投资3协同办公产品负责人转向端侧 Agent,说明入口争夺不只发生在云端模型层端侧 Agent 能否在隐私、低延迟和本地动作执行上形成差异
具身数据甲子光年调查称,觅蜂科技负责人估算具身模型若要达到类似 GPT-3.5 的开箱即用类人初步能力,可能需要一亿小时量级数据,而目前全球有效具身数据仅约几十万小时;文中还提到全国至少 15 座较大规模具身数据采集场4机器人数据不再只是实验室问题,正在变成设备、场景、劳务组织和质检交付共同组成的产业链无本体采集、真机遥操和大型数采场之间的成本与质量平衡
企业级智能体中国信通院人工智能所联合发布《企业级智能体技术与应用研究报告(2026 年)》,文章称企业级智能体正从辅助型效率工具向业务核心引擎转化5企业级 Agent 的话题从产品试点转向技术架构、应用边界和治理框架金融、政务、运营商等强流程行业会先把 Agent 纳入标准化评估

手机 Agent:从会点屏幕,到把任务真的做完

PhoneBuddy 这一组工作最有价值的地方,不是 4B 模型本身,而是它把手机 Agent 的训练问题拆得更实在。真实 App 环境足够接近部署场景,但慢、难重置,还会留下账号和服务端状态;mock App 更便宜、可复现,也更容易给出 reward,但可能训练出只适应模拟页面的能力1
混元的做法是 Real+Mock:先用真实 App 与 mock App 轨迹做共享 SFT,再在真实 App 和 PhoneWorld mock App 中做混合 RL。文中给出的结果显示,PhoneBuddy-4B-Real+Mock 在 Single-App、微信小程序和 AndroidWorld 上都高于只做 SFT 或只做 Real-App RL 的版本1
这对国内厂商尤其关键。手机生态、微信小程序、支付与文档工具都高度本地化,通用大模型靠少量 benchmark 分数很难直接落地。PhoneBuddy 把问题推向更硬的层面:Agent 是否记住约束、是否复制了正确内容、是否让任务状态真正发生变化。

多模态设计:商汤把 U1 Pro 放到「交付级」场景里

商汤这次预告 SenseNova-U1 Pro,重点不是泛泛展示文生图,而是把「设计」当成模型能力的验证场。文章称,商汤在股东大会上首次预告 U1 Pro,预计 2026 年 7 月启动邀请测试,并展示了知识信息图、国画长卷、杂志跨页、学术海报和电影分镜等预览样例2
这里的看点有两个。第一,商汤把「理解、生成、行动」放在同一个多模态基座里讲,试图让模型不只是出图,而是能规划、制作、评估再调整。第二,文中提到 U1 Pro 率先支持原生 8K 分辨率输出,并把 GPT-Image-2 作为对标对象2
如果邀请测试能兑现这些能力,国产多模态模型会多一个竞争面:不只拼图像美感,还要拼复杂信息排版、长文本控制和可交付文件质量。这些环节以前靠设计师、编辑、导演分工完成,模型要进去,稳定性比单张样图更重要。

端侧 Agent:飞书前高管下注本地入口

雷峰网的独家线索显示,飞书产品副总裁施凯文已确认创业,方向锁定端侧 Agent。文章称,其团队成员部分来自字节与上海交大,核心联合创始团队包含上海交大教授,红杉中国与锦秋基金已参与早期投资3
端侧 Agent 的吸引力不难理解。云端模型擅长理解和规划,但很多真实动作发生在本机:文件、日程、消息、企业应用、截图、剪贴板、本地权限。谁能在端侧拿到上下文,谁就更接近用户真正要完成的工作。
这条线索也解释了为什么协同办公背景的人会进入 Agent 创业。飞书这类产品长期处理组织关系、权限、文档和流程,天然知道企业工作流里哪里卡、哪里不能外泄、哪里需要低延迟。端侧 Agent 还没有标准形态,但它显然不只是把聊天框装进桌面端。

具身数据:机器人先需要一批「数据工人」

甲子光年的调查把具身智能的瓶颈从实验室拉到了采集现场。文章写到,受访者穿戴头盔、腕部摄像机和传感手套,按慢动作完成放羽毛球、夹三明治等任务;这些动作数据会供机器人公司和模型公司训练模型4
数字更能说明缺口。文中援引觅蜂科技董事长兼 CEO 姚卯青的说法:具身智能模型若要达到类似 GPT-3.5 的开箱即用类人初步能力,大概需要一亿小时量级数据,而目前全球有效具身智能数据只有几十万小时,中间差了 2 到 3 个数量级4
这也是为什么大型数采场、无本体采集设备、工厂场景和劳务中介会同时出现。文章提到,全国至少已有 15 座较大规模的具身智能数据采集场,北京人形机器人创新中心的数据基地占地近 5000 平方米,搭建了家居、商超、工业等 6 大类 30 多个采集场景,部署机器人 120 多台4
具身智能的商业化经常被写成机器人进入家庭和工厂。今天这篇调查提醒了另一面:在机器人进场之前,先要有人用自己的动作、时间和真实场景替它们收集训练材料。

企业级智能体:报告把「能用」问题推到治理层

中国信通院人工智能所联合发布《企业级智能体技术与应用研究报告(2026 年)》,公众号文章称,智能体正从辅助型效率工具向业务核心引擎转化,企业级智能体的价值在于深度业务融合、全流程闭环和私有化部署等能力5
这类报告的意义不在于给市场一个新概念,而在于给企业落地设定评估语言。企业不会只问模型能不能回答问题,还会问:能不能接流程,能不能留痕,能不能私有化,出了错谁负责,权限怎么收,数据怎么审。
今天几条线索合在一起看,Agent 的竞争正变重:手机 Agent 需要训练环境,设计 Agent 需要交付质量,端侧 Agent 需要本地入口,机器人 Agent 需要数据链条,企业 Agent 需要治理框架。轻量演示还会继续出现,但真正能留下来的,可能是那些把脏活、慢活和合规活处理掉的系统。

Related content

Add more perspectives or context around this Post.

  • Sign in to comment.