Qwen3_5ForConditionalGeneration#

一种混合架构,将 Mamba / Gated-DeltaNet (GDN) linear-attention 层与 full-attention 层交错,供 Qwen3.5 和 Qwen3.6 系列共享。LMCache 在注册时将递归状态缓存重新解释为不透明页面;有关 Mamba / linear-attention 模型的一般处理,请参见 Hybrid Attention 模型

验证过的模型#

引擎文档: vLLM 支持的模型中的 Qwen3.5 <https://docs.vllm.ai/en/latest/models/supported_models.html#text-generation>`_(架构 ``Qwen3_5ForConditionalGeneration`)。

状态: 已通过 LMCache 验证。

该系列中的每个模型都需要相同的三项设置:align Mamba 缓存模式、前缀缓存,以及与 vLLM 的 统一块大小 匹配的分块大小。该块大小因模型而异——vLLM 在启动时会输出 Setting attention block size to N tokens

模型

统一块大小 N

GPU

Qwen/Qwen3.6-27B

784

1

Qwen/Qwen3.5-0.8B

544

1

将 LMCache 服务器的 --chunk-size 设置为 N(或其倍数),并将 vLLM 的 --max-num-batched-tokens 设置为 2N-1(小于 2N 的最大值)。N 也有效,但在高负载下会使预填充串行化——请参阅下方说明。

Qwen3.6-27B (1 GPU, N = 7842N-1 = 1567):

lmcache server --chunk-size 784 --l1-size-gb 100 --eviction-policy LRU
vllm serve Qwen/Qwen3.6-27B \
    --enable-prefix-caching \
    --mamba-cache-mode align \
    --max-num-batched-tokens 1567 \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

Qwen3.5-0.8B (1 GPU, N = 5442N-1 = 1087): 与上述相同,使用 --chunk-size 544--max-num-batched-tokens 1087

--mamba-cache-mode align 是必需的(GDN 不支持 all 模式)。--max-num-batched-tokens 必须在 [N, 2N) 范围内(至少为统一块大小,且不超过其两倍)——否则 LMCache 在引擎启动时会报错。align 在调度器步骤结束时于块边界处快照 Mamba 状态,调度器将预填充拆分为完整的 N-token 块。优先选择最大值 ``2N-1``: 单个请求在每个步骤中仍会精确推进一个块(2N-1 < 2N),因此 LMCache 存储的逐块快照得以保留,同时 剩余的 N-1 预算允许解码与预填充块并发调度。将其设置为恰好 N 会使每步预算等于一个块,因此一旦任何请求进入解码阶段(消耗 ≥1 个 token 的预算),就无法启动新的预填充请求——执行退化为每次只处理一个请求。(在 Qwen3.6-27B 上的基准测试:取值 N 时,冷启动 / 低命中率场景慢约 7 倍,GPU 批大小卡在 1;取 2N-1 后恢复完整批处理。在 LMCache 缓存已预热(约 97% 命中率)的情况下,差距较小,因为剩余的预填充量很少,但 2N-1 仍是推荐的安全默认值。)若 vLLM 在 2N-1 时报告 "max_num_seqs exceeds available Mamba cache blocks",请将 --max-num-seqs 降低到 ≤ 该数量(每个解码序列需要一个 Mamba 块),或提高 --gpu-memory-utilization

有关通用 LMCache + vLLM 连接(端口、远程主机),请参见 快速入门

状态: 未通过 LMCache 验证。

状态: 支持。TRT-LLM + LMCache 的配置方式,请参阅 快速入门

CacheBlend 支持#

不支持:混合组的缓存页面是字节不透明的(请参见注意事项)。

压缩支持#

方法

状态

备注

CacheGen

不支持

混合组的缓存页面是字节不透明的。

注意事项#

  • 缓存运行与全新运行的生成结果不保证逐位一致:GDN 后端不支持 vLLM 的批不变模式。预期结果在得分层面等价,而非 token 层面严格一致(CI 验证门为 hma_lm_eval_qwen3_5 gsm8k 存储与检索对比)。

  • Mamba 和 full-attention 组的缓存页面是字节不透明视图,因此不适用内容感知处理,缓存条目不得在具有不同注意力后端或内核块大小的引擎之间共享。

  • vLLM 的 Mamba 前缀缓存在 align 模式下属于实验性功能。

  • Qwen/Qwen3.6-27B 是一个视觉语言模型(它加载一个视觉塔);LMCache 验证涵盖 文本 生成(hma_lm_eval_qwen3_5 gsm8k 存取门)。图像/视频 KV 的缓存未经过验证。