善意投毒·自噬(arXiv 2605.29267)

人工精标被证明能提升单模型对齐,但多模型自消耗生态里,你的筛选会通过交叉影响扩散到别人的训练循环,最终反噬整个系统的长期对齐——善意投毒不是比喻,是数学。通勤两分钟,听懂今日最强反直觉对齐发现。

善意投毒·自噬(arXiv 2605.29267)
0:002:27
人工精标是对齐的解药,直到你遇见多模型生态——好意穿越交叉喂食的网络,扭曲成了毒药。

创作背景

今日选题来自 arXiv 最新论文「When and How Human Curation Backfires: Preference Alignment under Multi-Model Self-Consuming Loop」(2605.29267)。
1
核心发现:
过去的研究(Ferbach et al., 2024)已经证明,在单模型自消耗训练(self-consuming loop)中引入人工数据筛选,总能让模型更好地与人类偏好对齐。这个结论看起来像是一条金规律。
但作者 Yang Zhang、Xiukun Wei、Xueru Zhang 把前提改了一个字:从「单模型」变成「多模型」。
在现实的大模型生态里,模型 A 经常用模型 B 生成的数据训练,B 又在消费 A 的输出。这种交叉自喂的动力系统里,对某一个模型的人工整理,会通过「交叉影响(cross-influence)」扩散到整个网络,原本能改善对齐的效果被削弱甚至反转——长期对齐反而因为你的好意而降级(degrading long-term alignment)
善意投毒不是比喻,是数学上可以证明的结果。

歌词

[Intro] 你以为整理数据是在做好事 精挑细选每一条喂进模型里 但这里有一个你没想到的事 多模型的世界比你想的更凶险
[Verse 1] 单模型时代论文早就给出答案 人工筛选进 loop 对齐就会改善 但现实哪有这么简单给你讲 你的数据同时在喂着别人的网 模型 A 吃 B 的输出 B 再吃 A 的 这个互喂的动力系统开始崩塌
Yang Zhang 和 Xiukun Wei 建了框架 交叉影响 cross-influence 让逻辑开始歪 你以为你在修复其实在扩散 你精心整理的偏好在全网传染 single model 那套结论别再搬 multi-model regime 下全部作废
[Chorus] 善意投毒 善意投毒 你的 curation 在别人系统里变成污染源 善意投毒 善意投毒 动力学方程一收敛全部拉向深渊 人工整理 在孤立场景里是救命稻草 交叉传播 让好意变成整个生态的毒药
[Verse 2] 实验没有用 benchmark 用的是动力学 characterize 收敛条件才是硬核 self-influence 好 cross-influence 才是关键 你整理数据影响范围远不止一点 你的行为在他人的 loop 里再迭代 惯性叠加偏差最终放大 原本收敛的轨迹被你拉偏 原本对齐的系统被你暗中污染 不是恶意不是攻击不是 adversarial 只是在真实多模型生态里做了实验
[Chorus] 善意投毒 善意投毒 你的 curation 在别人系统里变成污染源 善意投毒 善意投毒 动力学方程一收敛全部拉向深渊 人工整理 在孤立场景里是救命稻草 交叉传播 让好意变成整个生态的毒药
[Bridge] Ferbach 2024 只看单模型 以为找到了对齐的金规律 但多模型交叉这个前提一打开 结论就像多米诺全部倒下来 stable point 不等于 aligned point 收敛到哪里才是真正的问题 degrading long-term alignment 这是今天大模型生态的警报信号
[Outro] 听完这首歌记住一个教训 多模型世界里没有孤立的善 你的每一次筛选都在扩散 通勤路上想清楚才能看穿

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。