查找 KV Cache#

lookup 接口定义如下:

lookup(tokens: List[int]) -> event_id: str, layout_info: Dict[str, Tuple[str, int]]

该函数接受一个令牌列表作为输入,并返回 event_id 以及一个包含每个令牌布局信息的字典。布局信息表示为 instance_id(location, matched_prefix_length) 元组之间的映射。

示例用法:#

首先,我们需要一个 yaml 文件 example.yaml 来正确配置 lmcache 实例:

chunk_size: 256
local_cpu: True
max_local_cpu_size: 5

# cache controller configurations
enable_controller: True
lmcache_instance_id: "lmcache_default_instance"
controller_pull_url: "localhost:9001"
lmcache_worker_ports: 8001

# Peer identifiers
p2p_host: "localhost"
p2p_init_ports: 8200

第二,我们需要在 8000 端口启动 vllm/lmcache 实例:

PYTHONHASHSEED=123 CUDA_VISIBLE_DEVICES=0 LMCACHE_CONFIG_FILE=example.yaml vllm serve meta-llama/Llama-3.1-8B-Instruct --max-model-len 4096  --gpu-memory-utilization 0.8 --port 8000 --kv-transfer-config '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}'

第三,我们需要在 9000 端口启动 lmcache 控制器,在 9001 端口启动监视器:

PYTHONHASHSEED=123 lmcache_controller --host localhost --port 9000 --monitor-port 9001

然后我们可以向 vllm 发送请求,以查看它是否正常工作:

curl -X POST http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3.1-8B-Instruct",
    "prompt": "Explain the significance of KV cache in language models.",
    "max_tokens": 10
  }'

现在我们发送请求以对提示进行标记化:

curl -X POST http://localhost:8000/tokenize \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3.1-8B-Instruct",
    "prompt": "Explain the significance of KV cache in language models."
  }'

我们应该能够在响应中看到令牌 ID:

{"count":12,"max_model_len":4096,"tokens":[128000,849,21435,279,26431,315,85748,6636,304,4221,4211,13],"token_strs":null}

最后,我们可以向 lmcache 控制器发送一个 lookup 请求:

curl -X POST http://localhost:9000/lookup \
  -H "Content-Type: application/json" \
  -d '{
    "tokens": [128000, 849, 21435, 279, 26431, 315, 85748, 6636, 304, 4221, 4211, 13]
  }'

我们应该能够看到这样的响应:

{"event_id": "xxx", "lmcache_default_instance": ("LocalCPUBackend", 12)}

字段 lmcache_default_instance 显示实例 ID,后面是一个元组 (location, matched_prefix_length),指示该实例内的缓存位置和匹配前缀长度。 event_id 是控制器操作的标识符,通常可以忽略。