Skip to content
LMCache
⌘ K
LMCache
  • 入门指南
    • 概述
    • 安装
    • 快速入门
    • 配置参考
    • 基准测试
    • KV Cache 大小计算器
  • KV Cache 操作
    • CLI 参考
      • lmcache server
      • lmcache coordinator
      • lmcache describe
      • lmcache ping
      • lmcache query
      • lmcache bench
      • lmcache kvcache
      • lmcache quota
      • lmcache trace
      • lmcache tool
    • HTTP API
    • 前端仪表板
  • 配置示例
    • Uniform Attention 模型
      • MiniMaxM2ForCausalLM
      • MistralForCausalLM
      • Qwen3MoeForCausalLM
      • LlamaForCausalLM
      • Phi3ForCausalLM
      • MixtralForCausalLM
    • Hybrid Attention 模型
      • Gemma3ForConditionalGeneration
      • Gemma 4
      • GptOssForCausalLM
      • Qwen3_5ForConditionalGeneration
      • DeepSeek-V4-Flash
      • GlmMoeDsaForCausalLM
  • 二级 KV 存储
    • 支持的后端
      • NIXL
      • 文件与块
        • 文件系统
        • FS(原生)
        • 原始块(Rust)
      • 远程与分布式
        • S3
        • HF Bucket
        • Mooncake Store
        • RESP (Redis/Valkey)
        • Aerospike
      • DAX
      • 模拟
      • Fault Inject
    • KV Cache 压缩
      • CacheGen
  • 分布式 KV Cache
    • 分离式预填充
    • P2P KV 缓存共享
    • 多服务器协调
    • KV Cache 管理
  • 在生产环境中使用 LMCache
    • 部署指南
    • Kubernetes 部署
    • Kubernetes Operator
    • 运行时插件
    • Dynamo 集成
  • 可观察性
    • 指标
    • 日志记录
    • 追踪
  • 社区
    • 社区会议
    • 博客
  • KV Cache 优化
    • CacheBlend
    • 分段式预填充
  • 开发者指南
    • 贡献指南
    • 添加原生后端
    • 扩展 CLI
    • 扩展 HTTP API
  • 非 KV 缓存
    • 编码
    • 隐藏状态
  • 旧版(进程内模式)
    • 更多示例
    • 使用不同的存储后端
    • 异步加载
    • 使用不同的缓存策略
    • P2P KV Cache 共享
    • 编码器缓存
    • 使用 NIXL
    • 使用共享存储
    • 压缩
    • 逐层 KV 传输
    • LMCache 控制器
    • 混合
    • 多模态模型的 KV Cache 与 vLLM
    • 添加新的存储后端
    • vLLM 动态连接器
    • 配置 LMCache
    • 内部 API 服务器
    • 控制器 WebUI
    • 可观察性
    • Docker 部署
    • 性能调优
    • KV Cache 事件
    • 架构概述
    • 集成
    • 使用数据模块
    • 基本检查工具
    • 存储插件
    • 远程存储插件
LMCache
/
在生产环境中使用 LMCache

在生产环境中使用 LMCache#

在生产环境中部署、扩展和操作 LMCache。

  • 部署指南
    • Docker
    • Kubernetes
    • 生产最佳实践
    • 传输模式 (--supported-transfer-mode, --shm-name)
  • Kubernetes 部署
  • Kubernetes Operator
    • 为什么使用 Operator
    • 先决条件
    • 安装 Operator
    • 部署 LMCacheEngine
    • 连接 vLLM
    • 验证部署
    • CRD 规格参考
    • 示例
    • CacheBlend
    • LMCacheCoordinator
    • Operator 与手动部署对比
    • 安全注意事项
    • 开发
  • 运行时插件
    • 关键使用案例
    • 配置
    • 运行时插件命名约定
    • 执行模型
    • 示例运行时插件
    • 最佳实践
  • Dynamo 集成
KV Cache 管理
部署指南

© 2024, The LMCache Team Built with Sphinx 8.2.3