5 天前

LAVa:基于层级的KV缓存淘汰与动态预算分配

Yiqun Shen, Song Yuan, Zhengze Zhang, Xiaoliang Wang, Daxin Jiang, Nguyen Cam-Tu
LAVa:基于层级的KV缓存淘汰与动态预算分配
摘要

KV缓存常用于加速长上下文场景下的大语言模型(LLM)推理,但其高昂的内存开销促使人们迫切需要对缓存进行压缩。然而,现有的压缩方法大多依赖启发式策略,缺乏动态的内存预算分配机制。为解决这一局限性,我们提出了一种统一的缓存压缩框架,其核心思想是通过最小化Transformer残差流中的信息损失来实现高效压缩。在此基础上,我们分析了各层注意力输出的信息损失,并提出了一种新的度量标准,用于跨注意力头比较缓存条目,从而实现基于层的动态头级预算分配。此外,通过对比跨层信息,我们进一步实现了动态的层级预算分配。LAVa是首个统一的缓存淘汰与动态预算分配策略,与以往方法不同,它无需依赖训练过程,也无需组合多种策略。在LongBench、Needle-In-A-Haystack、Ruler和InfiniteBench等基准测试中的实验结果表明,该方法具有显著优势。此外,我们的实验揭示了一个新发现:在生成类任务(如代码补全)中,动态层级预算至关重要;而在抽取类任务(如抽取式问答)中,动态头级预算则起关键作用。作为一项完全动态的压缩方法,LAVa在各类任务中均能稳定保持最优性能。相关代码已开源,可通过以下链接获取:https://url。