欢迎使用 LMCache！#

面向 LLM 推理的 KV Cache 管理层

备注

我们目前正在升级文档，以提供更好的指导和示例。某些章节可能仍在建设中，感谢您的耐心等待！

LMCache 是面向 LLM 推理的 KV Cache 管理层。它将 KV Cache 从临时状态转变为可复用的 AI 原生知识：可以持久存储、在多个服务引擎之间复用、通过可观测性栈进行监控，并可转换以获得更好的生成质量。因此，LMCache 能降低 TTFT（首 token 时间）并提升吞吐量，尤其适用于长上下文智能体、多轮对话以及知识增强（如 RAG）等工作负载。

LMCache 具有厂商中立性。它可以作为 KV Cache 层，接入多种主流开源服务引擎、推理框架、硬件平台、存储系统和基础设施提供商。因此，用户可以在不同的服务引擎和存储厂商之间灵活切换，同时继续复用已存储的 KV Cache。

主要特性#

引擎独立部署：LMCache 作为独立的守护进程运行，能够在推理引擎进程之外独立管理 KV cache。因此，即使推理引擎发生崩溃，KV cache 也不会随之丢失，避免了与推理引擎“同生共死”的问题。
持久化的分层 KV Cache 卸载与复用：将 KV Cache 从显存卸载到跨越 CPU 内存、本地存储和远程后端的分层存储体系中，实现跨请求、跨会话和跨引擎实例的复用，从而减少重复的 Prefill 计算并降低 TTFT。
生产级 KV Cache 可观测性：LMCache 提供丰富的 KV Cache 可观测性指标，包括典型的 Kubernetes 指标（健康监控、性能诊断）、KV Cache 专属指标（请求级和 token 级的前缀缓存命中、生命周期、请求级 KV Cache 性能）、管理指标（特定用户的使用情况）等。
可插拔的存储与传输后端：通过统一接口轻松集成远程存储和 KV 传输后端，实现跨存储提供商的 KV Cache 卸载与共享。通过该接口，LMCache 支持的存储后端包括 CPU RAM、本地磁盘（SSD）、Redis/Valkey、Mooncake、InfiniStore、兼容 S3 的对象存储、NIXL 和 GDS。
非前缀 KV 复用：通过复用 prompt 中任意位置的已缓存 KV 块，将 KV 复用扩展到前缀缓存之外。它借助 CacheBlend 选择性地重新计算部分 token，从而恢复生成质量。
PD 分离与 KV 传输：支持通过 NIXL 等传输层，经由 NVLink、RDMA 或 TCP 将 KV Cache 从 Prefill 工作节点传输到解码工作节点。
可插拔的 KV 转换：提供简洁的接口，让研究人员能够借助灵活的 SERDE 接口实现压缩、token 丢弃和自定义序列化。