Gemma 3#

验证过的模型#

引擎文档: Gemma 3 在 vLLM 支持的模型 (架构 Gemma3ForConditionalGeneration)。

状态: 已通过 LMCache 验证。

启动 LMCache MP 服务器:

lmcache server --l1-size-gb 100 --eviction-policy LRU

使用 LMCache MP 连接器启动 vLLM:

vllm serve google/gemma-3-4b-it \
    --tensor-parallel-size 1 \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

Gemma 3 交错使用 local (sliding-window) 和 global (full) attention 层,因此 vLLM 保持其 混合 KV Cache 管理器 开启,并公开多个 KV Cache 组。LMCache 通过其混合内存分配器支持存储和检索所有这些组——LMCacheMPConnector 声明 SupportsHMA,因此 vLLM 不会自动禁用混合管理器,也无需额外配置。

google/gemma-3-4b-it 是一个 gated 模型;在启动服务之前,请通过 Hugging Face Hub 进行身份验证(例如,设置 HF_TOKEN)。请根据您的硬件调整 --tensor-parallel-size。有关通用 LMCache + vLLM 连接配置(端口、远程主机),请参见 快速入门

如果在 vLLM 设置中遇到任何问题,请参考 vLLM Recipes 以获取更多详细信息。

状态: 未通过 LMCache 验证。

状态: 支持。TRT-LLM + LMCache 的配置方式,请参阅 快速入门

CacheBlend 支持#

未验证。

压缩支持#

方法

状态

备注

CacheGen

未验证

注意事项#

  • Gated 模型。 google/gemma-3-4b-it 需要在 Hugging Face 上接受许可并进行身份验证(例如 HF_TOKEN),才能提供服务。

  • hybrid attention。 Gemma 3 是一个混合(sliding window + full attention)模型。LMCache 通过其混合内存分配器支持传输每个 KV Cache 组,因此缓存可透明运作。这适用于 Gemma 3 使用的 standard paged attention;Mamba / linear attention 混合模型(其递归状态缓存 LMCache 目前尚无法传输)暂不支持。