Phi3ForCausalLM#
验证过的模型#
引擎文档: vLLM 支持的模型中的 Phi3ForCausalLM (架构 Phi3ForCausalLM)。
状态: 已通过 LMCache 验证。
启动 LMCache MP 服务器:
lmcache server --l1-size-gb 100 --eviction-policy LRU
使用 LMCache MP 连接器启动 vLLM:
Phi-4-mini-instruct (1 GPU):
vllm serve microsoft/Phi-4-mini-instruct \
--trust-remote-code \
--enable-auto-tool-choice \
--tool-call-parser phi4_mini_json \
--kv-transfer-config \
'{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'
Phi-3-medium-128k-instruct (1 GPU):
vllm serve microsoft/Phi-3-medium-128k-instruct \
--trust-remote-code \
--kv-transfer-config \
'{"kv_connector":"LMCacheMPConnector", "kv_role":"kv_both"}'
调整 --tensor-parallel-size 以匹配您的硬件。有关通用 LMCache + vLLM 连接(端口、远程主机),请参见 快速入门。
状态: 未通过 LMCache 验证。
状态: 支持。请参见 快速入门 了解 TRT-LLM + LMCache 的设置方法。
CacheBlend 支持#
压缩支持#
方法 |
状态 |
备注 |
|---|---|---|
未验证 |
注意事项#
没有已知的问题。