Mixtral#

验证过的模型#

vLLM

引擎文档： vLLM 支持的模型中的 MixtralForCausalLM （架构 MixtralForCausalLM）。

状态: 已通过 LMCache 验证。

启动 LMCache MP 服务器：

lmcache server --l1-size-gb 100 --eviction-policy LRU

使用 LMCache MP 连接器启动 vLLM：

Mixtral-8x7B-v0.1 (4 GPUs):

vllm serve mistralai/Mixtral-8x7B-v0.1 \
    --tensor-parallel-size 4 \
    --trust-remote-code \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

Mixtral-8x7B-Instruct-v0.1 (4 GPUs):

vllm serve mistralai/Mixtral-8x7B-Instruct-v0.1 \
    --tensor-parallel-size 4 \
    --trust-remote-code \
    --enable-auto-tool-choice \
    --tool-call-parser mistral \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

调整 --tensor-parallel-size 以匹配您的硬件。有关通用 LMCache + vLLM 连接（端口、远程主机），请参见快速入门。

SGLang

状态： 未通过 LMCache 验证。

TRT-LLM

状态： 支持。TRT-LLM + LMCache 的配置方式，请参阅快速入门。

CacheBlend 支持#

压缩支持#

方法	状态	备注
CacheGen	未验证

注意事项#

没有已知的问题。