查询工作者信息#
query_worker_info 接口定义如下:
query_worker_info(instance_id: str, worker_ids: List[int]) -> event_id: str, worker_infos: List[WorkerInfo]
该函数获取由 instance_id 和 worker_ids 指定的工作者的信息。控制器返回一个 event_id 和工作者信息。
示例用法:#
首先,创建一个 yaml 文件 example.yaml 来配置 lmcache 实例:
chunk_size: 256
local_cpu: True
max_local_cpu_size: 5
# cache controller configurations
enable_controller: True
lmcache_instance_id: "lmcache_default_instance"
controller_pull_url: "localhost:9001"
lmcache_worker_ports: 8001
# Peer identifiers
p2p_host: "localhost"
p2p_init_ports: 8200
在端口 8000 启动 vllm/lmcache 实例:
CUDA_VISIBLE_DEVICES=0 LMCACHE_CONFIG_FILE=example.yaml vllm serve meta-llama/Llama-3.1-8B-Instruct --max-model-len 4096 \
--gpu-memory-utilization 0.8 --port 8000 --kv-transfer-config '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}'
在9000端口启动lmcache控制器,在9001端口启动监视器:
lmcache_controller --host localhost --port 9000 --monitor-port 9001
发送请求到控制器:
curl -X POST http://localhost:9000/query_worker_info \
-H "Content-Type: application/json" \
-d '{
"instance_id": "lmcache_default_instance",
"worker_ids": [0]
}'
控制器会回复类似于以下内容的消息:
{"event_id": "xxx", "worker_infos": [{"instance_id": "lmcache_default_instance", "worker_id": 0, "ip": "127.0.0.1", "port": 8001, "peer_init_url": "127.0.0.1:8200", "registration_time": 123456, "last_heartbeat_time": 456789}]}
worker_infos 包含查询到的工作者信息。返回的 event_id 可用于查询操作的状态。