指标参考#
LMCache 通过 Prometheus 提供全面的指标,以帮助您监控性能、缓存效率和系统健康。这些指标在 LMCache 与 vLLM 集成时通过 vLLM /metrics 端点公开,或者通过 LMCache 内部 API 服务器公开。
可用指标#
以下表格列出了按类别组织的所有可用 LMCache 指标。
核心请求指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
计数器 |
发送到 LMCache 的检索请求总数。 |
|
计数器 |
发送到 LMCache 的存储请求总数。 |
|
计数器 |
发送到 LMCache 的查找请求总数。 |
令牌指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
计数器 |
请求检索的总令牌数。 |
|
计数器 |
在检索过程中,LMCache 中命中的总令牌数。 |
|
计数器 |
LMCache 中存储的令牌总数。 |
|
计数器 |
查找操作中请求的令牌总数。 |
|
计数器 |
查找操作中命中的总令牌数。 |
|
计数器 |
vLLM 中的命中令牌数量。 |
|
计数器 |
LMCache 中的提示令牌数量。 |
命中率指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
仪表 |
自上次日志以来,检索请求的命中率。 |
|
仪表 |
自上次日志以来查找请求的命中率。 |
|
直方图 |
每个请求的命中率分布。 |
|
计数器 |
查找请求的总数,其中没有命中。 |
性能与延迟指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
直方图 |
从缓存中检索所花费的时间(秒)。 |
|
直方图 |
存储到缓存所需的时间(秒)。 |
|
直方图 |
在缓存中执行查找所花费的时间(秒)。 |
|
直方图 |
检索速度(每秒令牌数)。 |
|
直方图 |
存储速度(每秒令牌数)。 |
|
计数器 |
超过时间阈值的慢检索总数。 |
|
计数器 |
低于速度阈值的慢检索总数。 |
详细剖析指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
直方图 |
处理检索中令牌的时间(秒)。 |
|
直方图 |
在检索中广播内存对象的时间(秒)。 |
|
直方图 |
将数据移动到 GPU 的检索时间(秒)。 |
|
直方图 |
存储中处理令牌的时间(秒)。 |
|
直方图 |
从 GPU 移动数据到存储的时间(秒)。 |
|
直方图 |
将数据存储到存储中的时间(秒)。 |
|
直方图 |
等待从远程后端获取数据的时间(秒)。 |
|
直方图 |
连接器层花费的时间(秒)。 |
缓存使用与生命周期指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
仪表 |
本地缓存使用量(以字节为单位)。 |
|
仪表 |
远程缓存使用量(以字节为单位)。 |
|
仪表 |
本地存储使用量(以字节为单位)。 |
|
直方图 |
请求缓存生命周期的分布(以分钟为单位)。 |
远程后端与网络指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
计数器 |
对远程后端的读取请求总数。 |
|
计数器 |
从远程后端读取的字节总数。 |
|
计数器 |
对远程后端的写请求总数。 |
|
计数器 |
写入远程后端的字节总数。 |
|
直方图 |
从远程后端获取数据所花费的时间(毫秒)。 |
|
直方图 |
将数据放入远程后端所花费的时间(毫秒)。 |
|
直方图 |
从远程后端同步获取数据所花费的时间(毫秒)。 |
|
仪表 |
最新的远程后端 ping 延迟(毫秒)。 |
|
计数器 |
远程后端的总 ping 错误数量。 |
|
计数器 |
成功 ping 远程后端的总次数。 |
|
仪表 |
远程后端的最新 ping 错误代码。 |
本地 CPU 后端指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
计数器 |
本地 CPU 后端的总逐出次数。 |
|
计数器 |
本地 CPU 后端中被逐出的键的总数。 |
|
计数器 |
本地 CPU 后端中失败的逐出总数。 |
|
仪表 |
热缓存中当前项目的数量。 |
|
仪表 |
当前正在处理的请求中的键的数量。 |
内存管理指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
仪表 |
当前活动内存对象的数量。 |
|
仪表 |
当前固定内存对象的数量。 |
|
计数器 |
由于超时而强制逐出的总数。 |
|
仪表 |
PinMonitor 追踪的固定对象数量。 |
P2P 转移指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
计数器 |
P2P 转移请求的总数。 |
|
计数器 |
通过 P2P 传输的令牌总数。 |
|
直方图 |
P2P 传输所需时间(秒)。 |
|
直方图 |
P2P 传输速度(每秒令牌数)。 |
健康与内部系统指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
仪表 |
LMCache 的整体健康状态(1 = 健康,0 = 不健康)。 |
|
仪表 |
当前时间间隔内失败的阻塞获取操作数量。 |
|
仪表 |
批量消息发送器中 KV 消息队列的大小。 |
|
仪表 |
待处理的远程放置任务数量。 |
|
仪表 |
当前进行中的存储事件数量。 |
|
仪表 |
成功完成的存储事件数量。 |
|
仪表 |
未找到请求数据的存储事件数量。 |
块统计指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
仪表 |
是否启用块统计收集(1 = 启用,0 = 禁用)。 |
|
仪表 |
按块统计处理的请求总数。 |
|
仪表 |
处理的块总数。 |
|
仪表 |
估计遇到的唯一块的数量。 |
|
仪表 |
块重用率(0.0 到 1.0)。 |
|
仪表 |
布隆过滤器的内存使用量(以兆字节为单位)。 |
|
仪表 |
布隆过滤器的填充率(0.0 到 1.0)。 |
|
仪表 |
使用 |
|
仪表 |
活动统计文件的当前大小(以字节为单位)。 |
连接器指标#
指标名称 |
类型 |
描述 |
|---|---|---|
|
仪表 |
调度器中未完成请求的当前计数。 |
|
仪表 |
连接器中当前的加载规范数量。 |
|
仪表 |
连接器中活动请求跟踪器的数量。 |
|
仪表 |
连接器当前管理的 KV Cache 数量。 |
|
仪表 |
连接器中活动的逐层检索器数量。 |
|
仪表 |
连接器遇到的无效块 ID 的数量。 |
|
仪表 |
连接器优先处理的请求数量。 |