CacheBlend#

CacheBlend 允许 LMCache 重用任何重复文本块的 KV 缓存，而不仅仅是共享前缀——通过在块边界有选择地对少量 token 进行重计算来实现。这可以降低 RAG 和多文档场景下的首 token 延迟（TTFT），适用于可复用上下文并非干净前缀的情况。

启用 CacheBlend（MP 模式（多进程））#

使用 blend 引擎启动 LMCache 服务器：

lmcache server --l1-size-gb 20 --eviction-policy LRU --engine-type blend

blend 引擎将 BlendModule 组合到服务器中，并要求 --supported-transfer-mode 设置为 lmcache_driven 或 auto（默认值）。有关相关服务器标志，请参见配置参考。

备注

进程内 CacheBlend 文档——包括配置项（如 LMCACHE_ENABLE_BLENDING）及端到端示例——已保留在旧版章节中：混合。