Gemma 4#
验证过的模型#
引擎文档: vLLM 支持模型中的 Gemma 4 <https://docs.vllm.ai/en/latest/models/supported_models.html#multimodal-language-models>`_(架构 ``Gemma4ForConditionalGeneration` 适用于 31B/E4B,Gemma4UnifiedForConditionalGeneration 适用于 12B)。
状态: 已通过 LMCache 验证。
启动 LMCache MP 服务器:
lmcache server --l1-size-gb 100 --eviction-policy LRU
使用 LMCache MP 连接器启动 vLLM:
vllm serve google/gemma-4-31B-it \
--tensor-parallel-size 2 \
--kv-transfer-config \
'{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'
较小的 google/gemma-4-12B-it 和 google/gemma-4-E4B-it 在单个 GPU 上运行:
vllm serve google/gemma-4-12B-it \
--kv-transfer-config \
'{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'
调整 --tensor-parallel-size 以匹配您的硬件。有关通用 LMCache + vLLM 连接(端口、远程主机)的更多信息,请参见 快速入门。
如果在 vLLM 设置中遇到任何问题,请参考 vLLM Recipes 以获取更多详细信息。
状态: 未通过 LMCache 验证。
状态: 支持。请参阅 快速入门 以获取 TRT-LLM + LMCache 的设置。
CacheBlend 支持#
压缩支持#
方法 |
状态 |
备注 |
|---|---|---|
未验证 |
注意事项#
混合 KV Cache,具有异构块大小。 Gemma 4 交错了 sliding window 和 full attention 层,两者的头维度不同(sliding window 层为 256,full attention 层为 512),因此 vLLM 通过为这两种注意力类型分配不同的
block_size\ s(例如google/gemma-4-E4B-it:sliding window 层为 32,full attention 层为 16)来统一物理页面大小。LMCache 按各自的块大小存储和检索每个 KV Cache 组,无需额外配置。跨层 KV 共享。
google/gemma-4-E4B-it在层与层之间重用一些层的 KV 缓存。LMCache 仅存储拥有缓存的层;共享层的 KV 存储在相同的块中,并会自动恢复。