Qwen3.5 / Qwen3.6 系列#

一种混合架构，将 Mamba / Gated-DeltaNet (GDN) linear-attention 层与 full-attention 层交错，供 Qwen3.5 和 Qwen3.6 系列共享。LMCache 在注册时将递归状态缓存重新解释为不透明页面；有关 Mamba / linear-attention 模型的一般处理，请参见 Hybrid Attention 模型。

验证过的模型#

Qwen/Qwen3.6-27B (1 GPU)
Qwen/Qwen3.5-0.8B (1 GPU)

vLLM

引擎文档： vLLM 支持的模型中的 Qwen3.5（架构 Qwen3_5ForConditionalGeneration）。

状态: 已通过 LMCache 验证。

该系列中的每个模型都需要相同的三项设置：align Mamba 缓存模式、前缀缓存，以及与 vLLM 的统一块大小匹配的分块大小。该块大小因模型而异——vLLM 在启动时会输出 Setting attention block size to N tokens：

模型	统一块大小 `N`	GPU
`Qwen/Qwen3.6-27B`	784	1
`Qwen/Qwen3.5-0.8B`	544	1

将 LMCache 服务器的 --chunk-size 设置为 N（或其倍数），并将 vLLM 的 --max-num-batched-tokens 设置为 2N-1（小于 2N 的最大值）。N 也有效，但在高负载下会使预填充串行化——请参阅下方说明。

Qwen3.6-27B (1 GPU, N = 784 → 2N-1 = 1567):

lmcache server --chunk-size 784 --l1-size-gb 100 --eviction-policy LRU

vllm serve Qwen/Qwen3.6-27B \
    --enable-prefix-caching \
    --mamba-cache-mode align \
    --max-num-batched-tokens 1567 \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

Qwen3.5-0.8B (1 GPU, N = 544 → 2N-1 = 1087): 与上述相同，使用 --chunk-size 544 和 --max-num-batched-tokens 1087。

--mamba-cache-mode align 是必需的（GDN 不支持 all 模式）。--max-num-batched-tokens 必须在 [N, 2N) 范围内（至少为统一块大小，且不超过其两倍）——否则 LMCache 在引擎启动时会报错。align 在调度器步骤结束时于块边界处快照 Mamba 状态，调度器将预填充拆分为完整的 N-token 块。优先选择最大值 ``2N-1``： 单个请求在每个步骤中仍会精确推进一个块（2N-1 < 2N），因此 LMCache 存储的逐块快照得以保留，同时剩余的 N-1 预算允许解码与预填充块并发调度。将其设置为恰好 N 会使每步预算等于一个块，因此一旦任何请求进入解码阶段（消耗 ≥1 个 token 的预算），就无法启动新的预填充请求——执行退化为每次只处理一个请求。（在 Qwen3.6-27B 上的基准测试：取值 N 时，冷启动 / 低命中率场景慢约 7 倍，GPU 批大小卡在 1；取 2N-1 后恢复完整批处理。在 LMCache 缓存已预热（约 97% 命中率）的情况下，差距较小，因为剩余的预填充量很少，但 2N-1 仍是推荐的安全默认值。）若 vLLM 在 2N-1 时报告 "max_num_seqs exceeds available Mamba cache blocks"，请将 --max-num-seqs 降低到 ≤ 该数量（每个解码序列需要一个 Mamba 块），或提高 --gpu-memory-utilization。

有关通用 LMCache + vLLM 连接（端口、远程主机），请参见快速入门。

SGLang

状态： 未通过 LMCache 验证。

TRT-LLM

状态： 支持。TRT-LLM + LMCache 的配置方式，请参阅快速入门。

CacheBlend 支持#

不支持：混合组的缓存页面是字节不透明的（请参见注意事项）。

压缩支持#

方法	状态	备注
CacheGen	不支持	混合组的缓存页面是字节不透明的。

注意事项#

缓存运行与全新运行的生成结果不保证逐位一致：GDN 后端不支持 vLLM 的批不变模式。预期结果在得分层面等价，而非 token 层面严格一致（CI 验证门为 hma_lm_eval_qwen3_5 gsm8k 存储与检索对比）。
Mamba 和 full-attention 组的缓存页面是字节不透明视图，因此不适用内容感知处理，缓存条目不得在具有不同注意力后端或内核块大小的引擎之间共享。
vLLM 的 Mamba 前缀缓存在 align 模式下属于实验性功能。
Qwen/Qwen3.6-27B 是一个视觉语言模型（它加载一个视觉塔）；LMCache 验证涵盖文本生成（hma_lm_eval_qwen3_5 gsm8k 存取门）。图像/视频 KV 的缓存未经过验证。