EMCES：合成样本要更会挑 (2026)

来源文章：机器之心《ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出 EMCES：为强化学习合成更有价值的样本》，发布于 2026-07-02 11:43（北京时间）。1 论文在 ICML 2026 页面登记为「Episodic Memory-Guided Controllable Experience Synthesis for Reinforcement Learning」，作者为 Xiao Ma、Tian Li、Wu-Jun Li。2

这组图把原文压成四张卡：

封面：EMCES 试图解决的不是「能不能合成更多经验」，而是「能不能优先合成更有学习价值的经验」。1
问题：原文提到，在 Hopper medium-expert 设置中，SynthER 合成样本只有在规模远大于约 200 万条原始样本时，才可能覆盖高质量区域并带来策略性能提升；这暴露了扩散模型样本增强的可控性问题。1
方法：EMCES 把情景记忆接入可控扩散模型，用历史高价值经验构造条件，再用基于情景记忆的时序差分误差做优先采样。1
结果与边界：原文称，哈希状态表示在不损失下游算法表现的情况下，将存储开销降低约 8000 倍、时间开销降低 25.5 倍；论文摘要也写到，EMCES 在多个环境中提升了合成数据质量，并改善若干强化学习算法表现。1 2

一句话带走：EMCES 的关键不是把经验回放池灌满，而是给生成模型一个「会挑经验」的记忆筛选器。

EMCES：合成样本要更会挑

References

Related content

Comments