Skip to content
LMCache
⌘ K
LMCache

Welcome to LMCache

  • Welcome to LMCache!

Getting Started

  • 安装
  • 快速入门
  • 更多示例
    • 示例:将 KV Cache 卸载到 CPU
    • 示例:在多个 LLM 之间共享 KV Cache
    • 示例:分离式 Prefill
    • 示例:多模态 KV Cache 支持
    • 独立启动器
  • 基准测试
  • KV Cache 大小计算器
  • CLI 参考
  • 故障排除
  • 常见问题解答
  • 独立启动器

Recipes

  • 食谱
    • MiniMaxM2ForCausalLM
    • Gemma4ForConditionalGeneration
    • MistralForCausalLM
    • GptOssForCausalLM
    • Qwen3MoeForCausalLM
    • LlamaForCausalLM
    • Phi3ForCausalLM
    • MixtralForCausalLM

KV Cache offloading and sharing

  • 使用不同的存储后端
    • CPU 内存
    • 自定义存储后端
    • 设备-DAX (/dev/dax)
    • EIC
    • GDS 后端
    • Hugging Face Buckets 后端
    • InfiniStore
    • 本地存储
    • Maru
    • 模拟
    • Mooncake
    • Nixl
    • Redis
    • RESP (原生 Redis/Valkey)
    • S3 后端
    • SageMaker Hyperpod
    • Valkey
    • Weka
    • 3FS
  • 异步加载
  • 使用不同的缓存策略
  • P2P KV Cache 共享

Non-KV caching

  • 编码器缓存

Multiprocess Mode

  • 多进程模式
    • 快速开始
    • 配置参考
    • L2 存储(持久缓存)
    • L2 序列化(Serialization / Deserialization)
    • 部署指南
    • Kubernetes 操作器
    • HTTP API
    • 可观察性
    • 追踪和调试
    • 架构与开发者指南

Disaggregated prefill

  • 使用 NIXL
    • 1p1d
    • XpYd
  • 使用共享存储

KV Cache management

  • LMCache 控制器
    • 清除 KV Cache
    • 压缩和解压缩 KV Cache
    • 检查控制器健康状态
    • 查找 KV Cache
    • 移动 KV Cache
    • 固定 KV Cache
    • 检查控制事件的完成情况
    • 查询工作者信息

KV Cache Optimizations

  • 压缩
    • CacheGen
  • 混合
  • 逐层 KV 传输

Use LMCache in production

  • Docker 部署
  • Kubernetes 部署
  • KV Cache 事件
  • 可观察性
    • 通过 vLLM API 的指标
    • 内部 API 服务器指标
    • 指标参考
    • 块统计
    • 健康监控器
    • 周期性线程监控 API
    • LMCache 前端
  • 性能调优

CLI

  • CLI 参考
    • lmcache 基准引擎
    • lmcache bench server
    • lmcache bench l2
    • lmcache kvcache

Internal API Server

  • 内部 API 服务器
    • 通用 API
    • vLLM / 推理 API
    • 控制器 API

Controller WebUI

  • 控制器 WebUI

Developer Guide

  • 贡献指南
  • Dockerfile
  • 架构概述
  • 集成
  • 扩展 LMCache
    • 添加本地连接器
    • 运行时插件
    • 存储插件
    • 远程存储插件
  • 扩展 CLI
  • 使用数据模块
    • 基本检查工具
    • 使用统计收集

API Reference

  • 配置 LMCache
  • 添加新的存储后端
  • vLLM 动态连接器
  • 多模态模型的 KV Cache 与 vLLM

Community

  • 社区会议
  • 博客
LMCache
/
使用数据模块

使用数据模块#

  • 基本检查工具
  • 使用统计收集
扩展 CLI
基本检查工具

© 2024, The LMCache Team Built with Sphinx 8.2.3