CacheGen#
Cachegen 利用 KV Cache 的分布特性,将 KV Cache 编码为更紧凑的比特流表示,解码开销可以忽略不计。
在 LMCache 中配置 CacheGen#
设置应该与 naive KV cache sharing 非常相似。只需进行少量配置即可启用 CacheGen。
要在离线推理中启用 CacheGen,我们需要设置:
# Enable cachgen compression in LMCache
os.environ["LMCACHE_REMOTE_SERDE"] = "cachegen"
要在在线推理中启用 CacheGen,我们需要在配置 yaml 中设置 remote_serde:
# Enable cachgen compression in LMCache
remote_serde: "cachegen"