Uniform Attention 模型#

针对采用标准（uniform）attention 的 Transformer 架构的配方，均已通过 LMCache 端到端验证；每种架构对应一个配方页面，仅涵盖与默认配置不同的 LMCache 专项配置。

这些模型在所有层中使用 单一注意力类型，因此 vLLM 使用一个 KV 缓存组为其提供服务。交错使用多种注意力类型的模型（sliding window attention + full attention，或 Mamba / linear attention + full attention）请参见 Hybrid Attention 模型。

配方页面内容#

每个配方页面均刻意保持简洁：

验证过的模型 -- 已测试的确切 HF 仓库 ID。
引擎选项卡 -- 每个推理引擎（vLLM、SGLang、TRT-LLM）各对应一个选项卡。每个选项卡链接至该引擎的模型文档，并给出 lmcache server 和引擎启动命令的完整示例。尚未完成验证的引擎会在选项卡中明确说明。
CacheBlend 支持 -- 验证状态（可能为空）。
压缩支持 -- 列出各压缩方法（CacheGen 等）及其验证状态的表格，支持扩展：新方法可直接新增一行。
注意事项 -- 已知的限制（如果有的话）。

有关 LMCache 与推理引擎的通用接入配置（端口、远程主机、发送首个请求），请参见快速入门。本节配方均以该页面为前置阅读。

支持的架构#

模型	示例 HF 模型	vLLM	SGLang	TRT-LLM	配方
MiniMax M2 系列	`MiniMaxAI/MiniMax-M2`	✓	—	—	MiniMax M2 系列
Mistral / Devstral	`mistralai/Devstral-2-123B-Instruct-2512`	✓	—	—	Mistral / Devstral
Qwen3 MoE	`Qwen/Qwen3-235B-A22B`	✓	—	—	Qwen3 MoE
Llama	`meta-llama/Meta-Llama-3.1-70B-Instruct`	✓	—	—	Llama
Phi-3 / Phi-4	`microsoft/Phi-4-mini-instruct`	✓	—	—	Phi-3 / Phi-4
Mixtral	`mistralai/Mixtral-8x7B-Instruct-v0.1`	✓	—	—	Mixtral

图例：✓ 已验证，— 未验证。模型列是模型系列；每个食谱页面列出了它所涵盖的确切 vLLM 架构类。

贡献配方#

要新增一种 uniform attention 架构的配方：

将现有页面（如 minimax_m2.rst）复制为 recipes/<architecture_snake_case>.rst。
填写 验证过的模型、引擎、LMCache 配置 和 注意事项。各部分均应保持简洁——若某字段无内容可写，请用一行说明，不要填充无关内容。
在上方表格中新增一行，并在下方隐藏的 toctree 中新增一个条目。

（对于交错多种注意力类型的模型，请将页面添加至 Hybrid Attention 模型下。）