NIXL(NVIDIA 推理传输库)是一个高性能库,旨在加速 AI 推理框架中的点对点通信。它通过模块化插件架构提供对各种类型内存(CPU 和 GPU)和存储的抽象,使得推理管道中不同组件之间的数据传输和协调更加高效。
LMCache 支持将 NIXL 作为分离式 Prefill-解码的底层通信库。
有关使用 NIXL 安装 LMCache 的详细说明,请参阅我们的 安装指南。