Transformer KV cache 二次增长 vs SSM 固定状态但不能 query-key 寻址——Interdomain Attention 用核方法架桥,把 key/value 投影到 SSM 维护的基函数上,query 在固定状态里拿回条件注意力。1.3B 规模超 softmax baseline,3.5× 上下文外推无崩。通勤两分钟,听懂今日最强 Attention×SSM 融合架构。
Add more perspectives or context around this Drop.
Add more perspectives or context around this Drop.