Uniform Attention 模型#

针对采用标准(uniform)attention 的 Transformer 架构的配方,均已通过 LMCache 端到端验证;每种架构对应一个配方页面,仅涵盖与默认配置不同的 LMCache 专项配置。

这些模型在所有层中使用 单一注意力类型,因此 vLLM 使用一个 KV 缓存组为其提供服务。交错使用多种注意力类型的模型(sliding window attention + full attention,或 Mamba / linear attention + full attention)请参见 Hybrid Attention 模型

配方页面内容#

每个配方页面均刻意保持简洁:

  • 验证过的模型 -- 已测试的确切 HF 仓库 ID。

  • 引擎选项卡 -- 每个推理引擎(vLLM、SGLang、TRT-LLM)各对应一个选项卡。每个选项卡链接至该引擎的模型文档,并给出 lmcache server 和引擎启动命令的完整示例。尚未完成验证的引擎会在选项卡中明确说明。

  • CacheBlend 支持 -- 验证状态(可能为空)。

  • 压缩支持 -- 列出各压缩方法(CacheGen 等)及其验证状态的表格,支持扩展:新方法可直接新增一行。

  • 注意事项 -- 已知的限制(如果有的话)。

有关 LMCache 与推理引擎的通用接入配置(端口、远程主机、发送首个请求),请参见 快速入门。本节配方均以该页面为前置阅读。

支持的架构#

架构

示例 HF 模型

vLLM

SGLang

TRT-LLM

配方

MiniMaxM2ForCausalLM

MiniMaxAI/MiniMax-M2

MiniMaxM2ForCausalLM

MistralForCausalLM

mistralai/Devstral-2-123B-Instruct-2512

MistralForCausalLM

Qwen3MoeForCausalLM

Qwen/Qwen3-235B-A22B

Qwen3MoeForCausalLM

LlamaForCausalLM

meta-llama/Meta-Llama-3.1-70B-Instruct

LlamaForCausalLM

Phi3ForCausalLM

microsoft/Phi-4-mini-instruct

Phi3ForCausalLM

MixtralForCausalLM

mistralai/Mixtral-8x7B-Instruct-v0.1

MixtralForCausalLM

图例: 已验证, 未验证。

贡献配方#

要新增一种 uniform attention 架构的配方:

  1. 将现有页面(如 minimax_m2.rst)复制为 recipes/<architecture_snake_case>.rst

  2. 填写 验证过的模型引擎LMCache 配置注意事项。各部分均应保持简洁——若某字段无内容可写,请用一行说明,不要填充无关内容。

  3. 在上方表格中新增一行,并在下方隐藏的 toctree 中新增一个条目。

(对于交错多种注意力类型的模型,请将页面添加至 Hybrid Attention 模型 下。)