Kubernetes 部署#
对于集成 LMCache 的 vLLM 的 Kubernetes 部署,我们建议使用 vLLM Production Stack 项目。这是一个专门为 vllm 和 lmcache 提供的 K8S 原生集群范围的生产就绪实现。
有关快速入门指南,请参阅官方 文档。
并用 (values-05-cpu-offloading.yaml) 替换 Helm 值文件:
servingEngineSpec:
runtimeClassName: ""
modelSpec:
- name: "mistral"
repository: "lmcache/vllm-openai"
tag: "latest"
modelURL: "mistralai/Mistral-7B-Instruct-v0.2"
replicaCount: 1
requestCPU: 10
requestMemory: "40Gi"
requestGPU: 1
pvcStorage: "50Gi"
pvcAccessMode:
- ReadWriteOnce
vllmConfig:
maxModelLen: 32000
lmcacheConfig:
enabled: true
cpuOffloadingBufferSize: "20"
hf_token: <hf-token>
或
请参阅有关如何在生产环境中使用 LMCache 卸载 KV Cache 的详细 逐步教程。