Skip to content
LMCache
⌘ K
LMCache
  • 入门指南
    • 概述
    • 安装
    • 快速入门
    • 配置参考
    • 基准测试
    • KV Cache 大小计算器
  • KV Cache 操作
    • CLI 参考
      • lmcache server
      • lmcache coordinator
      • lmcache describe
      • lmcache ping
      • lmcache query
      • lmcache bench
      • lmcache kvcache
      • lmcache quota
      • lmcache trace
      • lmcache tool
    • HTTP API
    • 前端仪表板
  • 配置示例
    • Uniform Attention 模型
      • MiniMaxM2ForCausalLM
      • MistralForCausalLM
      • Qwen3MoeForCausalLM
      • LlamaForCausalLM
      • Phi3ForCausalLM
      • MixtralForCausalLM
    • Hybrid Attention 模型
      • Gemma3ForConditionalGeneration
      • Gemma 4
      • GptOssForCausalLM
      • Qwen3_5ForConditionalGeneration
      • DeepSeek-V4-Flash
      • GlmMoeDsaForCausalLM
  • 二级 KV 存储
    • 支持的后端
      • NIXL
      • 文件与块
        • 文件系统
        • FS(原生)
        • 原始块(Rust)
      • 远程与分布式
        • S3
        • HF Bucket
        • Mooncake Store
        • RESP (Redis/Valkey)
        • Aerospike
      • DAX
      • 模拟
      • Fault Inject
    • KV Cache 压缩
      • CacheGen
  • 分布式 KV Cache
    • 分离式预填充
    • P2P KV 缓存共享
    • 多服务器协调
    • KV Cache 管理
  • 在生产环境中使用 LMCache
    • 部署指南
    • Kubernetes 部署
    • Kubernetes Operator
    • 运行时插件
    • Dynamo 集成
  • 可观察性
    • 指标
    • 日志记录
    • 追踪
  • 社区
    • 社区会议
    • 博客
  • KV Cache 优化
    • CacheBlend
    • 分段式预填充
  • 开发者指南
    • 贡献指南
    • 添加原生后端
    • 扩展 CLI
    • 扩展 HTTP API
  • 非 KV 缓存
    • 编码
    • 隐藏状态
  • 旧版(进程内模式)
    • 更多示例
    • 使用不同的存储后端
    • 异步加载
    • 使用不同的缓存策略
    • P2P KV Cache 共享
    • 编码器缓存
    • 使用 NIXL
    • 使用共享存储
    • 压缩
    • 逐层 KV 传输
    • LMCache 控制器
    • 混合
    • 多模态模型的 KV Cache 与 vLLM
    • 添加新的存储后端
    • vLLM 动态连接器
    • 配置 LMCache
    • 内部 API 服务器
    • 控制器 WebUI
    • 可观察性
    • Docker 部署
    • 性能调优
    • KV Cache 事件
    • 架构概述
    • 集成
    • 使用数据模块
    • 基本检查工具
    • 存储插件
    • 远程存储插件
LMCache
/
旧版(进程内模式)
/
可观察性

可观察性#

  • 通过 vLLM API 的指标
    • 快速入门指南
    • 可用指标
  • 内部 API 服务器指标
    • 概述
    • 快速入门指南
    • 端口配置
    • 高级用法
  • 指标参考
    • 可用指标
  • 块统计
    • 概述
    • 记录策略
    • 快速入门指南
    • 配置选项
    • 高级用法
    • 最佳实践
    • 故障排除
  • 健康监控器
    • 概述
    • 架构
    • 自动发现
    • 配置
    • 它是如何工作的
    • 内置健康检查
    • Prometheus 指标
    • 错误代码
    • 扩展健康监控器
  • 周期性线程监控 API
    • 概述
    • API 端点
    • 线程级别
    • 不可恢复异常处理
    • 使用示例
  • LMCache 前端
    • 功能
    • 安装
    • 快速开始
    • 配置
    • 代理请求
    • 贡献
    • 更多信息
控制器 WebUI
通过 vLLM API 的指标

© 2024, The LMCache Team Built with Sphinx 8.2.3