欢迎使用 LMCache!#
极速 KV Cache 层,让大模型告别重复计算,全面提升推理效率。
备注
我们目前正在升级文档,以提供更好的指导和示例。某些章节可能仍在建设中,感谢您的耐心等待!
LMCache 让 LLM 对每段文本只需预填充一次。通过存储所有可复用文本的 KV 缓存,LMCache 能在任意推理引擎实例中复用任意可复用文本(不必是前缀)的 KV 缓存。由此既降低了预填充延迟(即首 token 时间,TTFT),又节省了宝贵的 GPU 算力与显存。
将 LMCache 与 vLLM 结合后,在多轮问答、RAG 等众多 LLM 应用场景中,LMCache 可实现 3-10 倍的延迟节省并降低 GPU 算力消耗。
有关更多信息,请查看以下内容:
我们的论文: