Gemma3ForConditionalGeneration#
验证过的模型#
引擎文档: Gemma 3 在 vLLM 支持的模型 (架构 Gemma3ForConditionalGeneration)。
状态: 已通过 LMCache 验证。
启动 LMCache MP 服务器:
lmcache server --l1-size-gb 100 --eviction-policy LRU
启动 vLLM 与 LMCache MP 连接器:
vllm serve google/gemma-3-4b-it \
--tensor-parallel-size 1 \
--kv-transfer-config \
'{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'
Gemma 3 交错使用局部(滑动窗口)和全局(完整)注意力层,因此 vLLM 保持其 混合 KV Cache 管理器 开启,并暴露多个 KV Cache 组。LMCache 通过其混合内存分配器支持存储和检索所有这些组 -- LMCacheMPConnector 宣告 SupportsHMA,因此 vLLM 不会自动禁用混合管理器,也不需要额外的配置。
google/gemma-3-4b-it 是一个受限模型;在服务之前,请先通过 Hugging Face Hub 进行身份验证(例如,设置 HF_TOKEN)。调整 --tensor-parallel-size 以匹配您的硬件。有关通用 LMCache + vLLM 连接(端口、远程主机、进程内模式),请参见 快速开始。
如果在 vLLM 设置中遇到任何问题,请参考 vLLM Recipes 以获取更多详细信息。
状态: 未通过 LMCache 验证。
状态: 不支持。LMCache TRT-LLM 集成正在进行中。
CacheBlend 支持#
未验证。
压缩支持#
方法 |
状态 |
笔记 |
|---|---|---|
未验证 |
注意事项#
门控模型。
google/gemma-3-4b-it需要在 Hugging Face 上接受许可并进行身份验证(例如HF_TOKEN),才能提供服务。混合注意力。 Gemma 3 是一个混合(滑动窗口 + 全注意力)模型。LMCache 通过其混合内存分配器支持转移每个 KV Cache 组,因此缓存可以透明地工作。这适用于 Gemma 3 使用的标准分页注意力;不支持 Mamba / 线性注意力混合(其递归状态缓存 LMCache 目前尚无法转移)。