Gemma 3#
验证过的模型#
引擎文档: Gemma 3 在 vLLM 支持的模型 (架构 Gemma3ForConditionalGeneration)。
状态: 已通过 LMCache 验证。
启动 LMCache MP 服务器:
lmcache server --l1-size-gb 100 --eviction-policy LRU
使用 LMCache MP 连接器启动 vLLM:
vllm serve google/gemma-3-4b-it \
--tensor-parallel-size 1 \
--kv-transfer-config \
'{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'
Gemma 3 交错使用 local (sliding-window) 和 global (full) attention 层,因此 vLLM 保持其 混合 KV Cache 管理器 开启,并公开多个 KV Cache 组。LMCache 通过其混合内存分配器支持存储和检索所有这些组——LMCacheMPConnector 声明 SupportsHMA,因此 vLLM 不会自动禁用混合管理器,也无需额外配置。
google/gemma-3-4b-it 是一个 gated 模型;在启动服务之前,请通过 Hugging Face Hub 进行身份验证(例如,设置 HF_TOKEN)。请根据您的硬件调整 --tensor-parallel-size。有关通用 LMCache + vLLM 连接配置(端口、远程主机),请参见 快速入门。
如果在 vLLM 设置中遇到任何问题,请参考 vLLM Recipes 以获取更多详细信息。
状态: 未通过 LMCache 验证。
状态: 支持。TRT-LLM + LMCache 的配置方式,请参阅 快速入门。
CacheBlend 支持#
未验证。
压缩支持#
方法 |
状态 |
备注 |
|---|---|---|
未验证 |
注意事项#
Gated 模型。
google/gemma-3-4b-it需要在 Hugging Face 上接受许可并进行身份验证(例如HF_TOKEN),才能提供服务。hybrid attention。 Gemma 3 是一个混合(sliding window + full attention)模型。LMCache 通过其混合内存分配器支持传输每个 KV Cache 组,因此缓存可透明运作。这适用于 Gemma 3 使用的 standard paged attention;Mamba / linear attention 混合模型(其递归状态缓存 LMCache 目前尚无法传输)暂不支持。