Qwen3_5ForConditionalGeneration#
一种混合架构,将 Mamba / Gated-DeltaNet (GDN) linear-attention 层与 full-attention 层交错,供 Qwen3.5 和 Qwen3.6 系列共享。LMCache 在注册时将递归状态缓存重新解释为不透明页面;有关 Mamba / linear-attention 模型的一般处理,请参见 Hybrid Attention 模型。
验证过的模型#
Qwen/Qwen3.6-27B (1 GPU)
Qwen/Qwen3.5-0.8B (1 GPU)
引擎文档: vLLM 支持的模型中的 Qwen3.5 <https://docs.vllm.ai/en/latest/models/supported_models.html#text-generation>`_(架构 ``Qwen3_5ForConditionalGeneration`)。
状态: 已通过 LMCache 验证。
该系列中的每个模型都需要相同的三项设置:align Mamba 缓存模式、前缀缓存,以及与 vLLM 的 统一块大小 匹配的分块大小。该块大小因模型而异——vLLM 在启动时会输出 Setting attention block size to N tokens:
模型 |
统一块大小 |
GPU |
|---|---|---|
|
784 |
1 |
|
544 |
1 |
将 LMCache 服务器的 --chunk-size 设置为 N(或其倍数),并将 vLLM 的 --max-num-batched-tokens 设置为 2N-1(小于 2N 的最大值)。N 也有效,但在高负载下会使预填充串行化——请参阅下方说明。
Qwen3.6-27B (1 GPU, N = 784 → 2N-1 = 1567):
lmcache server --chunk-size 784 --l1-size-gb 100 --eviction-policy LRU
vllm serve Qwen/Qwen3.6-27B \
--enable-prefix-caching \
--mamba-cache-mode align \
--max-num-batched-tokens 1567 \
--kv-transfer-config \
'{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'
Qwen3.5-0.8B (1 GPU, N = 544 → 2N-1 = 1087): 与上述相同,使用 --chunk-size 544 和 --max-num-batched-tokens 1087。
--mamba-cache-mode align 是必需的(GDN 不支持 all 模式)。--max-num-batched-tokens 必须在 [N, 2N) 范围内(至少为统一块大小,且不超过其两倍)——否则 LMCache 在引擎启动时会报错。align 在调度器步骤结束时于块边界处快照 Mamba 状态,调度器将预填充拆分为完整的 N-token 块。优先选择最大值 ``2N-1``: 单个请求在每个步骤中仍会精确推进一个块(2N-1 < 2N),因此 LMCache 存储的逐块快照得以保留,同时 剩余的 N-1 预算允许解码与预填充块并发调度。将其设置为恰好 N 会使每步预算等于一个块,因此一旦任何请求进入解码阶段(消耗 ≥1 个 token 的预算),就无法启动新的预填充请求——执行退化为每次只处理一个请求。(在 Qwen3.6-27B 上的基准测试:取值 N 时,冷启动 / 低命中率场景慢约 7 倍,GPU 批大小卡在 1;取 2N-1 后恢复完整批处理。在 LMCache 缓存已预热(约 97% 命中率)的情况下,差距较小,因为剩余的预填充量很少,但 2N-1 仍是推荐的安全默认值。)若 vLLM 在 2N-1 时报告 "max_num_seqs exceeds available Mamba cache blocks",请将 --max-num-seqs 降低到 ≤ 该数量(每个解码序列需要一个 Mamba 块),或提高 --gpu-memory-utilization。
有关通用 LMCache + vLLM 连接(端口、远程主机),请参见 快速入门。
状态: 未通过 LMCache 验证。
状态: 支持。TRT-LLM + LMCache 的配置方式,请参阅 快速入门。
CacheBlend 支持#
不支持:混合组的缓存页面是字节不透明的(请参见注意事项)。
压缩支持#
方法 |
状态 |
备注 |
|---|---|---|
不支持 |
混合组的缓存页面是字节不透明的。 |
注意事项#
缓存运行与全新运行的生成结果不保证逐位一致:GDN 后端不支持 vLLM 的批不变模式。预期结果在得分层面等价,而非 token 层面严格一致(CI 验证门为
hma_lm_eval_qwen3_5gsm8k 存储与检索对比)。Mamba 和 full-attention 组的缓存页面是字节不透明视图,因此不适用内容感知处理,缓存条目不得在具有不同注意力后端或内核块大小的引擎之间共享。
vLLM 的 Mamba 前缀缓存在
align模式下属于实验性功能。Qwen/Qwen3.6-27B是一个视觉语言模型(它加载一个视觉塔);LMCache 验证涵盖 文本 生成(hma_lm_eval_qwen3_5gsm8k 存取门)。图像/视频 KV 的缓存未经过验证。