KV Cache 压缩可以大大减少缓存的大小,这对存储/内存使用和加载速度都有好处。目前,我们支持以下压缩算法:
CacheGen: CacheGen: KV Cache 压缩与流式传输以快速服务大型语言模型