Qwen3MoeForCausalLM#
验证过的模型#
引擎文档: vLLM 支持的 Qwen3 MoE 模型 (架构 Qwen3MoeForCausalLM)。
状态: 已通过 LMCache 验证。
启动 LMCache MP 服务器:
lmcache server --l1-size-gb 100 --eviction-policy LRU
Qwen3-235B-A22B (4 GPUs, 专家并行):
vllm serve Qwen/Qwen3-235B-A22B \
--tensor-parallel-size 4 \
--enable-expert-parallel \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--reasoning-parser qwen3 \
--kv-transfer-config \
'{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'
Qwen3-30B-A3B (1 GPU):
vllm serve Qwen/Qwen3-30B-A3B \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--reasoning-parser qwen3 \
--kv-transfer-config \
'{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'
Qwen3-Coder-480B-A35B-Instruct-FP8 (8 个 GPU,专家并行):
vllm serve Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8 \
--tensor-parallel-size 8 \
--enable-expert-parallel \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--kv-transfer-config \
'{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'
Qwen3-Coder-30B-A3B-Instruct (1 GPU):
vllm serve Qwen/Qwen3-Coder-30B-A3B-Instruct \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--kv-transfer-config \
'{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'
调整 --tensor-parallel-size 以匹配您的硬件。有关通用 LMCache + vLLM 连接(端口、远程主机、进程内模式),请参见 快速开始。
如果在 vLLM 设置中遇到任何问题,请参考 vLLM Recipes 以获取更多详细信息。
状态: 未通过 LMCache 验证。
状态: 不支持。LMCache TRT-LLM 集成正在进行中。
CacheBlend 支持#
压缩支持#
方法 |
状态 |
笔记 |
|---|---|---|
未验证 |
注意事项#
没有已知的问题。