常见问题解答#

流行模型的 KV Cache 大小是多少？LMCache 为什么重要？#

您可以使用我们的 KV 缓存计算器来计算 KV 缓存大小。我们还提供了下面的参考表，其中包含一些流行模型的 KV 缓存信息。

如表所示，以 Qwen/Qwen3-32B 为例，备用显存中仅有足够的空间容纳 275,760 个 token 用于 KV 缓存。如果每个提示为 40,960 个 token，这仅支持 6.73 个并发用户。一旦超过这个容量，KV 缓存必须被逐出，当同一用户返回时，他们的请求需要重新 Prefill，这将花费更长的时间。

LMCache 旨在扩展这种虚拟内存容量，使您能够存储更多的 KV Cache，并避免昂贵的重新预填充操作。

流行模型的 KV Cache 大小

模型	每1000个令牌的KV缓存大小	为 KV Cache 预留的显存	上下文长度	可以存储在显存中的完整提示数量
Qwen/Qwen3-8B	0.1373 GB	50.32 GB（或 366,400 个 token）	40,960 个令牌	8.95倍
Qwen/Qwen3-32B (tp=2 on H100)	0.2441 GB	33.66 GB × 2（或 275,760 个 token）	40,960 个令牌	6.73倍
meta-llama/Llama-3.1-70B (tp=4 on H100)	0.3052 GB	32.06 GB × 4（或 420,208 个 token）	131,072 个 token	3.21倍

备注

您还可以使用这个 VRAM Calculator 来计算不同模型和配置的估计剩余显存。