Gemma 4#

验证过的模型#

vLLM

引擎文档: vLLM 支持模型中的 Gemma 4（架构 Gemma4ForConditionalGeneration 适用于 31B/E4B，Gemma4UnifiedForConditionalGeneration 适用于 12B）。

状态: 已通过 LMCache 验证。

启动 LMCache MP 服务器：

lmcache server --l1-size-gb 100 --eviction-policy LRU

使用 LMCache MP 连接器启动 vLLM：

vllm serve google/gemma-4-31B-it \
    --tensor-parallel-size 2 \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

较小的 google/gemma-4-12B-it 和 google/gemma-4-E4B-it 在单个 GPU 上运行：

vllm serve google/gemma-4-12B-it \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

调整 --tensor-parallel-size 以匹配您的硬件。有关通用 LMCache + vLLM 连接（端口、远程主机），请参见快速入门。

如果在 vLLM 设置中遇到任何问题，请参考 vLLM Recipes 以获取更多详细信息。

SGLang

状态： 未通过 LMCache 验证。

TRT-LLM

状态： 支持。TRT-LLM + LMCache 的配置方式，请参阅快速入门。

CacheBlend 支持#

压缩支持#

方法	状态	备注
CacheGen	未验证

注意事项#

混合 KV Cache，具有异构块大小。 Gemma 4 交错了 sliding window 和 full attention 层，两者的头维度不同（sliding window 层为 256，full attention 层为 512），因此 vLLM 通过为这两种注意力类型分配不同的 block_size\ s（例如 google/gemma-4-E4B-it：sliding window 层为 32，full attention 层为 16）来统一物理页面大小。LMCache 按各自的块大小存储和检索每个 KV Cache 组，无需额外配置。
跨层 KV 共享。 google/gemma-4-E4B-it 在层与层之间重用一些层的 KV 缓存。LMCache 仅存储拥有缓存的层；共享层的 KV 存储在相同的块中，并会自动恢复。