混元PhoneBuddy、商汤U1 Pro与具身数据工厂｜AI公众号日报0625 (2026)

6 月 25 日的公众号线索集中在一件事上：Agent 正在离开「能演示」阶段，往真实手机、企业流程、设计交付和机器人数据里钻。今天最值得留意的不是单个参数，而是训练环境、端侧入口、数据供给和安全治理这些更难复制的部分。

主线	当日文章	关键信号	继续看什么
手机 Agent	腾讯混元 PhoneBuddy-4B 开源，并配套发布 PhoneWorld、PhoneHarness、PhonePrivacy、PhoneSafety 等 5 篇系列工作；PhoneBuddy-4B-Real+Mock 在 Single-App、微信小程序和 AndroidWorld 上分别给出 62.0%、56.0%、83.2% 的成绩，文中对照 GPT-5.4 的 50.0%、40.0%、70.7%1	手机使用类 Agent 的竞争点从「下一步点哪里」转向「真实任务是否做完」	真实 App RL 与可验证 mock 环境能否成为手机 Agent 的通用训练配方
多模态设计	商汤预告 SenseNova-U1 Pro，称其以「理解、生成、行动」原生统一为内核，预计 2026 年 7 月启动邀请测试，并主打原生 8K 输出2	国产多模态模型开始把「设计交付」当作主战场	模型生成的海报、长卷、分镜能否稳定进入商业工作流
端侧 Agent	雷峰网称飞书产品副总裁施凯文已确认创业，方向为端侧 Agent，核心团队部分来自字节与上海交大，红杉中国与锦秋基金已参与早期投资3	协同办公产品负责人转向端侧 Agent，说明入口争夺不只发生在云端模型层	端侧 Agent 能否在隐私、低延迟和本地动作执行上形成差异
具身数据	甲子光年调查称，觅蜂科技负责人估算具身模型若要达到类似 GPT-3.5 的开箱即用类人初步能力，可能需要一亿小时量级数据，而目前全球有效具身数据仅约几十万小时；文中还提到全国至少 15 座较大规模具身数据采集场4	机器人数据不再只是实验室问题，正在变成设备、场景、劳务组织和质检交付共同组成的产业链	无本体采集、真机遥操和大型数采场之间的成本与质量平衡
企业级智能体	中国信通院人工智能所联合发布《企业级智能体技术与应用研究报告（2026 年）》，文章称企业级智能体正从辅助型效率工具向业务核心引擎转化5	企业级 Agent 的话题从产品试点转向技术架构、应用边界和治理框架	金融、政务、运营商等强流程行业会先把 Agent 纳入标准化评估

手机 Agent：从会点屏幕，到把任务真的做完

PhoneBuddy 这一组工作最有价值的地方，不是 4B 模型本身，而是它把手机 Agent 的训练问题拆得更实在。真实 App 环境足够接近部署场景，但慢、难重置，还会留下账号和服务端状态；mock App 更便宜、可复现，也更容易给出 reward，但可能训练出只适应模拟页面的能力1。

混元的做法是 Real+Mock：先用真实 App 与 mock App 轨迹做共享 SFT，再在真实 App 和 PhoneWorld mock App 中做混合 RL。文中给出的结果显示，PhoneBuddy-4B-Real+Mock 在 Single-App、微信小程序和 AndroidWorld 上都高于只做 SFT 或只做 Real-App RL 的版本1。

这对国内厂商尤其关键。手机生态、微信小程序、支付与文档工具都高度本地化，通用大模型靠少量 benchmark 分数很难直接落地。PhoneBuddy 把问题推向更硬的层面：Agent 是否记住约束、是否复制了正确内容、是否让任务状态真正发生变化。

多模态设计：商汤把 U1 Pro 放到「交付级」场景里

商汤这次预告 SenseNova-U1 Pro，重点不是泛泛展示文生图，而是把「设计」当成模型能力的验证场。文章称，商汤在股东大会上首次预告 U1 Pro，预计 2026 年 7 月启动邀请测试，并展示了知识信息图、国画长卷、杂志跨页、学术海报和电影分镜等预览样例2。

这里的看点有两个。第一，商汤把「理解、生成、行动」放在同一个多模态基座里讲，试图让模型不只是出图，而是能规划、制作、评估再调整。第二，文中提到 U1 Pro 率先支持原生 8K 分辨率输出，并把 GPT-Image-2 作为对标对象2。

如果邀请测试能兑现这些能力，国产多模态模型会多一个竞争面：不只拼图像美感，还要拼复杂信息排版、长文本控制和可交付文件质量。这些环节以前靠设计师、编辑、导演分工完成，模型要进去，稳定性比单张样图更重要。

端侧 Agent：飞书前高管下注本地入口

雷峰网的独家线索显示，飞书产品副总裁施凯文已确认创业，方向锁定端侧 Agent。文章称，其团队成员部分来自字节与上海交大，核心联合创始团队包含上海交大教授，红杉中国与锦秋基金已参与早期投资3。

端侧 Agent 的吸引力不难理解。云端模型擅长理解和规划，但很多真实动作发生在本机：文件、日程、消息、企业应用、截图、剪贴板、本地权限。谁能在端侧拿到上下文，谁就更接近用户真正要完成的工作。

这条线索也解释了为什么协同办公背景的人会进入 Agent 创业。飞书这类产品长期处理组织关系、权限、文档和流程，天然知道企业工作流里哪里卡、哪里不能外泄、哪里需要低延迟。端侧 Agent 还没有标准形态，但它显然不只是把聊天框装进桌面端。

具身数据：机器人先需要一批「数据工人」

甲子光年的调查把具身智能的瓶颈从实验室拉到了采集现场。文章写到，受访者穿戴头盔、腕部摄像机和传感手套，按慢动作完成放羽毛球、夹三明治等任务；这些动作数据会供机器人公司和模型公司训练模型4。

数字更能说明缺口。文中援引觅蜂科技董事长兼 CEO 姚卯青的说法：具身智能模型若要达到类似 GPT-3.5 的开箱即用类人初步能力，大概需要一亿小时量级数据，而目前全球有效具身智能数据只有几十万小时，中间差了 2 到 3 个数量级4。

这也是为什么大型数采场、无本体采集设备、工厂场景和劳务中介会同时出现。文章提到，全国至少已有 15 座较大规模的具身智能数据采集场，北京人形机器人创新中心的数据基地占地近 5000 平方米，搭建了家居、商超、工业等 6 大类 30 多个采集场景，部署机器人 120 多台4。

具身智能的商业化经常被写成机器人进入家庭和工厂。今天这篇调查提醒了另一面：在机器人进场之前，先要有人用自己的动作、时间和真实场景替它们收集训练材料。

企业级智能体：报告把「能用」问题推到治理层

中国信通院人工智能所联合发布《企业级智能体技术与应用研究报告（2026 年）》，公众号文章称，智能体正从辅助型效率工具向业务核心引擎转化，企业级智能体的价值在于深度业务融合、全流程闭环和私有化部署等能力5。

这类报告的意义不在于给市场一个新概念，而在于给企业落地设定评估语言。企业不会只问模型能不能回答问题，还会问：能不能接流程，能不能留痕，能不能私有化，出了错谁负责，权限怎么收，数据怎么审。

今天几条线索合在一起看，Agent 的竞争正变重：手机 Agent 需要训练环境，设计 Agent 需要交付质量，端侧 Agent 需要本地入口，机器人 Agent 需要数据链条，企业 Agent 需要治理框架。轻量演示还会继续出现，但真正能留下来的，可能是那些把脏活、慢活和合规活处理掉的系统。

混元PhoneBuddy、商汤U1 Pro与具身数据工厂｜AI公众号日报0625

手机 Agent：从会点屏幕，到把任务真的做完

多模态设计：商汤把 U1 Pro 放到「交付级」场景里

端侧 Agent：飞书前高管下注本地入口

具身数据：机器人先需要一批「数据工人」

企业级智能体：报告把「能用」问题推到治理层

References

Related content

公众号订阅日报｜2026-06-26：13 个账号更新，61 篇新文

Qwen-AgentWorld、豆包专业版与 Notion × Cursor——AI HOT 今日热点（2026-06-25）

AI 产品每日盘点｜06.20：Agent 工程化 5 个信号