Kubernetes 部署#

对于集成 LMCache 的 vLLM 的 Kubernetes 部署,我们建议使用 vLLM Production Stack 项目。这是一个专门为 vllm 和 lmcache 提供的 K8S 原生集群范围的生产就绪实现。

有关快速入门指南,请参阅官方 文档

并用 (values-05-cpu-offloading.yaml) 替换 Helm 值文件:

servingEngineSpec:
  runtimeClassName: ""
  modelSpec:
  - name: "mistral"
    repository: "lmcache/vllm-openai"
    tag: "latest"
    modelURL: "mistralai/Mistral-7B-Instruct-v0.2"
    replicaCount: 1
    requestCPU: 10
    requestMemory: "40Gi"
    requestGPU: 1
    pvcStorage: "50Gi"
    pvcAccessMode:
      - ReadWriteOnce
    vllmConfig:
      maxModelLen: 32000

    lmcacheConfig:
      enabled: true
      cpuOffloadingBufferSize: "20"

    hf_token: <hf-token>

请参阅有关如何在生产环境中使用 LMCache 卸载 KV Cache 的详细 逐步教程