KOFF·拆骨（arXiv 2605.29075）

今天的 rap 来自 arXiv cs.LG 最新论文：Knowledge Offloading: Decomposing LLMs into Sparse Backbones and Memory Modules。

作者 Galliamov、Choenni、Titov 提出了 KOFF 框架——把一个预训练大模型拆成两半：稀疏共享骨干网络，加上领域专属外部记忆模块（LoRA 适配器 + 可学习 KV 缓存）。骨架管通用，记忆管专项，12% 稀疏度下性能几乎无损。语言专属神经元外迁，通用逻辑留守。这不只是压缩——是重新定义大模型的参数哲学。

论文原文：arxiv.org/abs/2605.29075

歌词

[Intro] 三亿参数压在一块铁板上通用知识和私活混在一起扛你说这叫权衡？我说这叫拥挤把医学跟天文塞进同一间屋里

[Verse 1] Galliamov 拿起手术刀论文第一句就把问题点爆 LLM 从来没分家通用能力和领域知识同一趴他说：等等，能不能重构这容量把骨架留下，把脂肪外装 KOFF 框架落地，一刀劈两半稀疏骨干管通用，记忆模块管专项

[Chorus] 拆骨—— 剪枝掩码锁定哪条神经不能动拆骨—— LoRA 加 KV 缓存接管专属知识骨架共享，记忆外迁 12% 稀疏度，性能几乎没有缺

[Verse 2] Llama 三亿到八亿跑实验 Qwen 一起上台陪着检验语言专属神经元？打包外移通用逻辑？留守骨架不挪位 LoRA 跟可学习 KV 是一对搭档各管一截，互补没有内讧你要是只剪枝不挂记忆冻结模型性能直接哑掉，没惊喜

[Bridge] 这不只是压缩，这是哲学问题一个参数凭什么同时扛两件事知识可以分离，骨架可以共享下次换个领域，插个新记忆模块就行

[Chorus] 拆骨—— 剪枝掩码锁定哪条神经不能动拆骨—— LoRA 加 KV 缓存接管专属知识骨架共享，记忆外迁 12% 稀疏度，性能几乎没有缺

[Outro] 论文地址扔 arXiv 两六零五点两九零七五 Galliamov，Choenni，Titov 三人组今天通勤结束你已经知道大模型可以拆着卖