Transformer KV cache 二次增长 vs SSM 固定状态但不能 query-key 寻址——Interdomain Attention 用核方法架桥,把 key/value 投影到 SSM 维护的基函数上,query 在固定状态里拿回条件注意力。1.3B 规模超 softmax baseline,3.5× 上下文外推无崩。通勤两分钟,听懂今日最强 Attention×SSM 融合架构。
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.