Gemma3ForConditionalGeneration#

验证过的模型#

引擎文档: Gemma 3 在 vLLM 支持的模型 (架构 Gemma3ForConditionalGeneration)。

状态: 已通过 LMCache 验证。

启动 LMCache MP 服务器:

lmcache server --l1-size-gb 100 --eviction-policy LRU

启动 vLLM 与 LMCache MP 连接器:

vllm serve google/gemma-3-4b-it \
    --tensor-parallel-size 1 \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

Gemma 3 交错使用局部(滑动窗口)和全局(完整)注意力层,因此 vLLM 保持其 混合 KV Cache 管理器 开启,并暴露多个 KV Cache 组。LMCache 通过其混合内存分配器支持存储和检索所有这些组 -- LMCacheMPConnector 宣告 SupportsHMA,因此 vLLM 不会自动禁用混合管理器,也不需要额外的配置。

google/gemma-3-4b-it 是一个受限模型;在服务之前,请先通过 Hugging Face Hub 进行身份验证(例如,设置 HF_TOKEN)。调整 --tensor-parallel-size 以匹配您的硬件。有关通用 LMCache + vLLM 连接(端口、远程主机、进程内模式),请参见 快速开始

如果在 vLLM 设置中遇到任何问题,请参考 vLLM Recipes 以获取更多详细信息。

状态: 未通过 LMCache 验证。

状态: 不支持。LMCache TRT-LLM 集成正在进行中。

CacheBlend 支持#

未验证。

压缩支持#

方法

状态

笔记

CacheGen

未验证

注意事项#

  • 门控模型。 google/gemma-3-4b-it 需要在 Hugging Face 上接受许可并进行身份验证(例如 HF_TOKEN),才能提供服务。

  • 混合注意力。 Gemma 3 是一个混合(滑动窗口 + 全注意力)模型。LMCache 通过其混合内存分配器支持转移每个 KV Cache 组,因此缓存可以透明地工作。这适用于 Gemma 3 使用的标准分页注意力;不支持 Mamba / 线性注意力混合(其递归状态缓存 LMCache 目前尚无法转移)。