Uniform Attention 模型#
针对采用标准(uniform)attention 的 Transformer 架构的配方,均已通过 LMCache 端到端验证;每种架构对应一个配方页面,仅涵盖与默认配置不同的 LMCache 专项配置。
这些模型在所有层中使用 单一注意力类型,因此 vLLM 使用一个 KV 缓存组为其提供服务。交错使用多种注意力类型的模型(sliding window attention + full attention,或 Mamba / linear attention + full attention)请参见 Hybrid Attention 模型。
配方页面内容#
每个配方页面均刻意保持简洁:
验证过的模型 -- 已测试的确切 HF 仓库 ID。
引擎选项卡 -- 每个推理引擎(vLLM、SGLang、TRT-LLM)各对应一个选项卡。每个选项卡链接至该引擎的模型文档,并给出
lmcache server和引擎启动命令的完整示例。尚未完成验证的引擎会在选项卡中明确说明。CacheBlend 支持 -- 验证状态(可能为空)。
压缩支持 -- 列出各压缩方法(CacheGen 等)及其验证状态的表格,支持扩展:新方法可直接新增一行。
注意事项 -- 已知的限制(如果有的话)。
有关 LMCache 与推理引擎的通用接入配置(端口、远程主机、发送首个请求),请参见 快速入门。本节配方均以该页面为前置阅读。
支持的架构#
架构 |
示例 HF 模型 |
vLLM |
SGLang |
TRT-LLM |
配方 |
|---|---|---|---|---|---|
|
|
✓ |
— |
— |
|
|
|
✓ |
— |
— |
|
|
|
✓ |
— |
— |
|
|
|
✓ |
— |
— |
|
|
|
✓ |
— |
— |
|
|
|
✓ |
— |
— |
图例:✓ 已验证,— 未验证。
贡献配方#
要新增一种 uniform attention 架构的配方:
将现有页面(如
minimax_m2.rst)复制为recipes/<architecture_snake_case>.rst。填写 验证过的模型、引擎、LMCache 配置 和 注意事项。各部分均应保持简洁——若某字段无内容可写,请用一行说明,不要填充无关内容。
在上方表格中新增一行,并在下方隐藏的 toctree 中新增一个条目。
(对于交错多种注意力类型的模型,请将页面添加至 Hybrid Attention 模型 下。)