KV Cache 事件#

警告

本页面记录了 LMCache 的进程内模式（已弃用）的行为。请考虑使用 LMCache MP 模式以获得更好的功能支持和性能。有关此页面的 MP 模式等效项，请参见可观察性。

KV Cache 事件是在推理过程中管理 KV Cache 时发生的操作或生命周期事件。这些事件可用于 KV Cache 感知路由。

LMCache 支持以下 KV 缓存事件：

生成存储 KV Cache 事件
事件格式根据 vLLM 中的 BlockStored class 定义。
LMCache 将事件传递给 SGLang 或 vLLM，以通过它们的消息系统发布这些事件。

先决条件#

以下先决条件是必需的：

vLLM

vLLM v0.13.0+
LMCache v0.3.11+

SGLang

SGLang vx.y.z+
LMCache vx.y.z+

如何生成 KV Cache 事件#

vLLM

在开始生成 KV 事件之前，您需要了解以下内容：

您需要为 LMCache 启用 enable_kv_events，因为默认情况下不会生成事件。
如果在 vLLM 中运行多个工作进程，则需要使用非默认的哈希算法（在 LMCache 中设置 pre_caching_hash_algorithm），以确保每个工作进程生成的哈希相同。如果不这样做，则会为相同操作生成重复事件，因为事件是按工作进程生成的。
LMCache 将事件发送到 vLLM 进行发布。要启用事件发布，您需要设置 vLLM 配置选项 --kv-events-config。有关更多详细信息，请参见 vLLM KV Events configuration。

接下来的步骤给出了如何生成、发布和消费 KV 事件的示例：

以如下方式启动 vLLM，使用 LMCache 和模型 Qwen/Qwen3-0.6B：

LMCACHE_CONFIG_FILE=lmcache_config.yaml \
    vllm serve Qwen/Qwen3-0.6B --kv-transfer-config '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}' \
    --disable-log-requests --no-enable-prefix-caching --kv-events-config '{"enable_kv_cache_events": "True", "publisher": "zmq", "topic": "kv-events"}'

LMCache 配置示例如下：

chunk_size: 8  # demo only; use 256 for production
local_cpu: true
enable_kv_events: true
pre_caching_hash_algorithm: sha256_cbor_64bit

要处理 vLLM 发布的事件，您需要一个订阅发布者消息通道并能够消费事件的客户端。vLLM 提供了这样的客户端示例 KV Events Subscriber。在单独的终端中运行此 Python 脚本。
提示模型：

  curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
  "model": "Qwen/Qwen3-0.6B",
  "prompt": "<|begin_of_text|><|system|>\nYou are a helpful AI assistant.\n<|user|>\nWhat is the capital of France?\n<|assistant|>",
  "max_tokens": 100,
  "temperature": 0.7
}'

您应该在客户端（您在第 2 步中启动的客户端）窗口中收到一条消息，类似于以下内容：

  Received event batch at 1765529395.2132685:
- BlockStored(block_hashes=[b'\x96\x95[h6\x1dE$v\x03\xe8\xf0\xc20\xcd\xe8\xa7#\x9cS\xe0\x16\xba\xab7\xf7z\x10P]\xfaT'], parent_block_hash=None, token_ids=[27, 91, 7265, 3575, 4326, 91, 1784, 91, 8948, 91, 397, 2610, 525, 264, 10950, 15235, 17847, 624, 27, 91, 872, 91, 397, 3838, 374, 279, 16158, 1685, 1370, 276, 5267, 27, 91, 77091, 91, 29], block_size=36, lora_id=None, medium='cpu')

这是在缓存存储操作后生成的事件。