MiniMaxM2ForCausalLM#

验证过的模型#

引擎文档: vLLM 支持的模型中的 MiniMax-M2 (架构 MiniMaxM2ForCausalLM)。

状态: 已通过 LMCache 验证。

启动 LMCache MP 服务器:

lmcache server --l1-size-gb 100 --eviction-policy LRU

启动 vLLM 与 LMCache MP 连接器:

MiniMax-M2 (8 GPUs):

vllm serve MiniMaxAI/MiniMax-M2 \
    --tensor-parallel-size 8 \
    --trust-remote-code \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

MiniMax-M2.5 (4 GPUs):

vllm serve MiniMaxAI/MiniMax-M2.5 \
    --tensor-parallel-size 4 \
    --trust-remote-code \
    --enable-auto-tool-choice \
    --tool-call-parser minimax_m2 \
    --reasoning-parser minimax_m2 \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

MiniMax-M2.7 (4 GPUs):

vllm serve MiniMaxAI/MiniMax-M2.7 \
    --tensor-parallel-size 4 \
    --trust-remote-code \
    --enable-auto-tool-choice \
    --tool-call-parser minimax_m2 \
    --reasoning-parser minimax_m2 \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

调整 --tensor-parallel-size 以匹配您的硬件。有关通用 LMCache + vLLM 连接(端口、远程主机、进程内模式),请参见 快速开始

如果在 vLLM 设置中遇到任何问题,请参考 vLLM Recipes 以获取更多详细信息。

引擎文档: MiniMax-M2 SGLang 食谱MiniMax M2.5/M2.1/M2 使用指南

状态: 未通过 LMCache 验证。

状态: 不支持。LMCache TRT-LLM 集成正在进行中。

CacheBlend 支持#

压缩支持#

方法

状态

笔记

CacheGen

未验证

注意事项#

没有已知的问题。