Qwen3MoeForCausalLM#

验证过的模型#

引擎文档: vLLM 支持的 Qwen3 MoE 模型 (架构 Qwen3MoeForCausalLM)。

状态: 已通过 LMCache 验证。

启动 LMCache MP 服务器:

lmcache server --l1-size-gb 100 --eviction-policy LRU

Qwen3-235B-A22B(4 个 GPU,专家并行):

vllm serve Qwen/Qwen3-235B-A22B \
    --tensor-parallel-size 4 \
    --enable-expert-parallel \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --reasoning-parser qwen3 \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

Qwen3-30B-A3B(1 个 GPU):

vllm serve Qwen/Qwen3-30B-A3B \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --reasoning-parser qwen3 \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

Qwen3-Coder-480B-A35B-Instruct-FP8(8 个 GPU,专家并行):

vllm serve Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8 \
    --tensor-parallel-size 8 \
    --enable-expert-parallel \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

Qwen3-Coder-30B-A3B-Instruct(1 个 GPU):

vllm serve Qwen/Qwen3-Coder-30B-A3B-Instruct \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

调整 --tensor-parallel-size 以匹配您的硬件。有关通用 LMCache + vLLM 连接(端口、远程主机),请参见 快速入门

如果在 vLLM 设置中遇到任何问题,请参考 vLLM Recipes 以获取更多详细信息。

状态: 未通过 LMCache 验证。

状态: 支持。请参阅 快速入门 以获取 TRT-LLM + LMCache 的设置。

CacheBlend 支持#

压缩支持#

方法

状态

备注

CacheGen

未验证

注意事项#

没有已知的问题。