Gemma 3#

验证过的模型#

google/gemma-3-4b-it

vLLM

引擎文档： Gemma 3 在 vLLM 支持的模型 (架构 Gemma3ForConditionalGeneration)。

状态: 已通过 LMCache 验证。

启动 LMCache MP 服务器：

lmcache server --l1-size-gb 100 --eviction-policy LRU

使用 LMCache MP 连接器启动 vLLM：

vllm serve google/gemma-3-4b-it \
    --tensor-parallel-size 1 \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

Gemma 3 交错使用 local (sliding-window) 和 global (full) attention 层，因此 vLLM 保持其 混合 KV Cache 管理器 开启，并公开多个 KV Cache 组。LMCache 通过其混合内存分配器支持存储和检索所有这些组——LMCacheMPConnector 声明 SupportsHMA，因此 vLLM 不会自动禁用混合管理器，也无需额外配置。

google/gemma-3-4b-it 是一个 gated 模型；在启动服务之前，请通过 Hugging Face Hub 进行身份验证（例如，设置 HF_TOKEN）。请根据您的硬件调整 --tensor-parallel-size。有关通用 LMCache + vLLM 连接配置（端口、远程主机），请参见快速入门。

如果在 vLLM 设置中遇到任何问题，请参考 vLLM Recipes 以获取更多详细信息。

SGLang

状态： 未通过 LMCache 验证。

TRT-LLM

状态： 支持。TRT-LLM + LMCache 的配置方式，请参阅快速入门。

CacheBlend 支持#

未验证。

压缩支持#

方法	状态	备注
CacheGen	未验证

注意事项#

Gated 模型。 google/gemma-3-4b-it 需要在 Hugging Face 上接受许可并进行身份验证（例如 HF_TOKEN），才能提供服务。
hybrid attention。 Gemma 3 是一个混合（sliding window + full attention）模型。LMCache 通过其混合内存分配器支持传输每个 KV Cache 组，因此缓存可透明运作。这适用于 Gemma 3 使用的 standard paged attention；Mamba / linear attention 混合模型（其递归状态缓存 LMCache 目前尚无法传输）暂不支持。