CacheGen#

Cachegen 利用 KV Cache 的分布特性,将 KV Cache 编码为更紧凑的比特流表示,解码开销可以忽略不计。

在 LMCache 中配置 CacheGen#

设置应该与 naive KV cache sharing 非常相似。只需进行少量配置即可启用 CacheGen。

要在离线推理中启用 CacheGen,我们需要设置:

# Enable cachgen compression in LMCache
os.environ["LMCACHE_REMOTE_SERDE"] = "cachegen"

要在在线推理中启用 CacheGen,我们需要在配置 yaml 中设置 remote_serde

# Enable cachgen compression in LMCache
remote_serde: "cachegen"