LlamaForCausalLM#

验证过的模型#

引擎文档: vLLM 支持的模型中的 LlamaForCausalLM (架构 LlamaForCausalLM)。

状态: 已通过 LMCache 验证。

在模型卡页面申请访问权限,并将您的 huggingface token 添加为环境变量:

export HUGGING_FACE_HUB_TOKEN=hf_xxxxxxxxxxxxxxxxx

启动 LMCache MP 服务器:

lmcache server --l1-size-gb 100 --eviction-policy LRU

请参照 vLLM 的 Llama 工具调用指南 获取工具调用所需的聊天模板。

使用 LMCache MP 连接器启动 vLLM:

Meta-Llama-3.1-8B (1 GPU):

vllm serve meta-llama/Meta-Llama-3.1-8B \
    --trust-remote-code \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

Meta-Llama-3.1-8B-Instruct (1 GPU):

vllm serve meta-llama/Meta-Llama-3.1-8B-Instruct \
    --trust-remote-code \
    --enable-auto-tool-choice \
    --tool-call-parser llama3_json \
    --chat-template <path_to_llama3.1_json_template> \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

Meta-Llama-3.1-70B (4 GPUs):

vllm serve meta-llama/Meta-Llama-3.1-70B \
    --tensor-parallel-size 4 \
    --trust-remote-code \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

Meta-Llama-3.1-70B-Instruct (4 GPUs):

vllm serve meta-llama/Meta-Llama-3.1-70B-Instruct \
    --tensor-parallel-size 4 \
    --trust-remote-code \
    --enable-auto-tool-choice \
    --tool-call-parser llama3_json \
    --chat-template <path_to_llama3.1_json_template> \
    --kv-transfer-config \
    '{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'

调整 --tensor-parallel-size 以匹配您的硬件。有关通用 LMCache + vLLM 连接(端口、远程主机),请参见 快速入门

状态: 未通过 LMCache 验证。

状态: 支持。有关 TRT-LLM + LMCache 设置,请参见 快速入门

CacheBlend 支持#

压缩支持#

方法

状态

备注

CacheGen

未验证

注意事项#

没有已知的问题。