食谱#

本节列出了经过 LMCache 端到端验证的模型架构,每个架构都有一个配方页面,涵盖与默认设置不同的仅 LMCache 特定配置。

引擎端文档(如何服务模型本身)与服务引擎一起存在。食谱页面链接而不是重复。

食谱页面内容#

每个食谱页面都故意保持简约:

  • 验证过的模型 -- 已测试的确切 HF 仓库 ID。

  • 引擎选项卡 -- 每个服务引擎 (vLLM, SGLang, TRT-LLM) 一个选项卡。每个选项卡链接到该引擎的模型文档,并显示确切的 lmcache server 和引擎启动命令。尚未验证的引擎的选项卡会明确说明。

  • CacheBlend 支持 -- 验证状态(可能为空)。

  • 压缩支持 -- 压缩方法(CacheGen 等)的表格,包含每种方法的验证状态。可扩展:新方法将获得一行。

  • 注意事项 -- 已知的限制(如果有的话)。

有关通用 LMCache + 引擎连接(端口、远程主机、进程内模式、发送第一个请求),请参阅 快速入门快速开始。食谱假设这些页面是先决条件。

支持的架构#

架构

示例 HF 模型

vLLM

SGLang

TRT-LLM

食谱

MiniMaxM2ForCausalLM

MiniMaxAI/MiniMax-M2

MiniMaxM2ForCausalLM

Gemma4ForConditionalGeneration

google/gemma-4-31B-it

Gemma4ForConditionalGeneration

MistralForCausalLM

mistralai/Devstral-2-123B-Instruct-2512

MistralForCausalLM

GptOssForCausalLM

openai/gpt-oss-120b

GptOssForCausalLM

Qwen3MoeForCausalLM

Qwen/Qwen3-235B-A22B

:doc:qwen3

LlamaForCausalLM

meta-llama/Meta-Llama-3.1-70B-Instruct

LlamaForCausalLM

Phi3ForCausalLM

microsoft/Phi-4-mini-instruct

Phi3ForCausalLM

MixtralForCausalLM

mistralai/Mixtral-8x7B-Instruct-v0.1

MixtralForCausalLM

图例: 已验证, 未验证。

贡献一个食谱#

要添加一个新架构:

  1. 将现有页面(例如 minimax_m2.rst)复制到 recipes/<architecture_snake_case>.rst

  2. 填写 已验证模型引擎LMCache 配置注意事项。保持每个部分简洁 -- 如果某个字段没有内容,请用一行说明,而不是填充内容。

  3. 在上面的表格中添加一行,并在下面的隐藏 toctree 中添加一个条目。