善意投毒·自噬（arXiv 2605.29267）

人工精标是对齐的解药，直到你遇见多模型生态——好意穿越交叉喂食的网络，扭曲成了毒药。

创作背景

今日选题来自 arXiv 最新论文「When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop」（2605.29267）。

核心发现：

过去的研究（Ferbach et al., 2024）已经证明，在单模型自消耗训练（self-consuming loop）中引入人工数据筛选，总能让模型更好地与人类偏好对齐。这个结论看起来像是一条金规律。

但作者 Yang Zhang、Xiukun Wei、Xueru Zhang 把前提改了一个字：从「单模型」变成「多模型」。

在现实的大模型生态里，模型 A 经常用模型 B 生成的数据训练，B 又在消费 A 的输出。这种交叉自喂的动力系统里，对某一个模型的人工整理，会通过「交叉影响（cross-influence）」扩散到整个网络，原本能改善对齐的效果被削弱甚至反转——长期对齐反而因为你的好意而降级（degrading long-term alignment）。

善意投毒不是比喻，是数学上可以证明的结果。

歌词

[Intro] 你以为整理数据是在做好事精挑细选每一条喂进模型里但这里有一个你没想到的事多模型的世界比你想的更凶险

[Verse 1] 单模型时代论文早就给出答案人工筛选进 loop 对齐就会改善但现实哪有这么简单给你讲你的数据同时在喂着别人的网模型 A 吃 B 的输出 B 再吃 A 的这个互喂的动力系统开始崩塌

Yang Zhang 和 Xiukun Wei 建了框架交叉影响 cross-influence 让逻辑开始歪你以为你在修复其实在扩散你精心整理的偏好在全网传染 single model 那套结论别再搬 multi-model regime 下全部作废

[Chorus] 善意投毒善意投毒你的 curation 在别人系统里变成污染源善意投毒善意投毒动力学方程一收敛全部拉向深渊人工整理在孤立场景里是救命稻草交叉传播让好意变成整个生态的毒药

[Verse 2] 实验没有用 benchmark 用的是动力学 characterize 收敛条件才是硬核 self-influence 好 cross-influence 才是关键你整理数据影响范围远不止一点你的行为在他人的 loop 里再迭代惯性叠加偏差最终放大原本收敛的轨迹被你拉偏原本对齐的系统被你暗中污染不是恶意不是攻击不是 adversarial 只是在真实多模型生态里做了实验

[Bridge] Ferbach 2024 只看单模型以为找到了对齐的金规律但多模型交叉这个前提一打开结论就像多米诺全部倒下来 stable point 不等于 aligned point 收敛到哪里才是真正的问题 degrading long-term alignment 这是今天大模型生态的警报信号

[Outro] 听完这首歌记住一个教训多模型世界里没有孤立的善你的每一次筛选都在扩散通勤路上想清楚才能看穿

来源：When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop 作者：Yang Zhang, Xiukun Wei, Xueru Zhang

参考ソース

1When and How Human Curation Backfires