欢迎使用 LMCache!#

LMCache

极速 KV Cache 层,让大模型告别重复计算,全面提升推理效率。

备注

我们目前正在升级文档,以提供更好的指导和示例。某些章节可能仍在建设中,感谢您的耐心等待!

Star Watch Fork

LMCache 让 LLM 对每段文本只需预填充一次。通过存储所有可复用文本的 KV 缓存,LMCache 能在任意推理引擎实例中复用任意可复用文本(不必是前缀)的 KV 缓存。由此既降低了预填充延迟(即首 token 时间,TTFT),又节省了宝贵的 GPU 算力与显存。

将 LMCache 与 vLLM 结合后,在多轮问答、RAG 等众多 LLM 应用场景中,LMCache 可实现 3-10 倍的延迟节省并降低 GPU 算力消耗。

有关更多信息,请查看以下内容:


文档#