常见问题解答#
流行模型的 KV Cache 大小是多少?LMCache 为什么重要?#
您可以使用我们的 KV 缓存计算器 来计算 KV 缓存大小。我们还提供了下面的参考表,其中包含一些流行模型的 KV 缓存信息。
如表所示,以 Qwen/Qwen3-32B 为例,备用显存中仅有足够的空间容纳 275,760 个 token 用于 KV 缓存。如果每个提示为 40,960 个 token,这仅支持 6.73 个并发用户。一旦超过这个容量,KV 缓存必须被逐出,当同一用户返回时,他们的请求需要重新 Prefill,这将花费更长的时间。
LMCache 旨在扩展这种虚拟内存容量,使您能够存储更多的 KV Cache,并避免昂贵的重新预填充操作。
流行模型的 KV Cache 大小
模型 |
每1000个令牌的KV缓存大小 |
为 KV Cache 预留的显存 |
上下文长度 |
可以存储在显存中的完整提示数量 |
|---|---|---|---|---|
Qwen/Qwen3-8B |
0.1373 GB |
50.32 GB(或 366,400 个 token) |
40,960 个令牌 |
8.95倍 |
Qwen/Qwen3-32B (tp=2 on H100) |
0.2441 GB |
33.66 GB × 2(或 275,760 个 token) |
40,960 个令牌 |
6.73倍 |
meta-llama/Llama-3.1-70B (tp=4 on H100) |
0.3052 GB |
32.06 GB × 4(或 420,208 个 token) |
131,072 个 token |
3.21倍 |
备注
您还可以使用这个 VRAM Calculator 来计算不同模型和配置的估计剩余显存。