食谱#
本节列出了经过 LMCache 端到端验证的模型架构,每个架构都有一个配方页面,涵盖与默认设置不同的仅 LMCache 特定配置。
引擎端文档(如何服务模型本身)与服务引擎一起存在。食谱页面链接而不是重复。
食谱页面内容#
每个食谱页面都故意保持简约:
验证过的模型 -- 已测试的确切 HF 仓库 ID。
引擎选项卡 -- 每个服务引擎 (vLLM, SGLang, TRT-LLM) 一个选项卡。每个选项卡链接到该引擎的模型文档,并显示确切的
lmcache server和引擎启动命令。尚未验证的引擎的选项卡会明确说明。CacheBlend 支持 -- 验证状态(可能为空)。
压缩支持 -- 压缩方法(CacheGen 等)的表格,包含每种方法的验证状态。可扩展:新方法将获得一行。
注意事项 -- 已知的限制(如果有的话)。
有关通用 LMCache + 引擎连接(端口、远程主机、进程内模式、发送第一个请求),请参阅 快速入门 和 快速开始。食谱假设这些页面是先决条件。
支持的架构#
架构 |
示例 HF 模型 |
vLLM |
SGLang |
TRT-LLM |
食谱 |
|---|---|---|---|---|---|
|
|
✓ |
— |
— |
|
|
|
✓ |
— |
— |
|
|
|
✓ |
— |
— |
|
|
|
✓ |
— |
— |
|
|
|
✓ |
— |
— |
:doc:qwen3 |
|
|
✓ |
— |
— |
|
|
|
✓ |
— |
— |
|
|
|
✓ |
— |
— |
图例:✓ 已验证,— 未验证。
贡献一个食谱#
要添加一个新架构:
将现有页面(例如
minimax_m2.rst)复制到recipes/<architecture_snake_case>.rst。填写 已验证模型、引擎、LMCache 配置 和 注意事项。保持每个部分简洁 -- 如果某个字段没有内容,请用一行说明,而不是填充内容。
在上面的表格中添加一行,并在下面的隐藏 toctree 中添加一个条目。