指标参考#

LMCache 通过 Prometheus 提供全面的指标,以帮助您监控性能、缓存效率和系统健康。这些指标在 LMCache 与 vLLM 集成时通过 vLLM /metrics 端点公开,或者通过 LMCache 内部 API 服务器公开。

可用指标#

以下表格列出了按类别组织的所有可用 LMCache 指标。

核心请求指标#

核心请求指标#

指标名称

类型

描述

lmcache:num_retrieve_requests

计数器

发送到 LMCache 的检索请求总数。

lmcache:num_store_requests

计数器

发送到 LMCache 的存储请求总数。

lmcache:num_lookup_requests

计数器

发送到 LMCache 的查找请求总数。

令牌指标#

令牌指标#

指标名称

类型

描述

lmcache:num_requested_tokens

计数器

请求检索的总令牌数。

lmcache:num_hit_tokens

计数器

在检索过程中,LMCache 中命中的总令牌数。

lmcache:num_stored_tokens

计数器

LMCache 中存储的令牌总数。

lmcache:num_lookup_tokens

计数器

查找操作中请求的令牌总数。

lmcache:num_lookup_hits

计数器

查找操作中命中的总令牌数。

lmcache:num_vllm_hit_tokens

计数器

vLLM 中的命中令牌数量。

lmcache:num_prompt_tokens

计数器

LMCache 中的提示令牌数量。

命中率指标#

命中率指标#

指标名称

类型

描述

lmcache:retrieve_hit_rate

仪表

自上次日志以来,检索请求的命中率。

lmcache:lookup_hit_rate

仪表

自上次日志以来查找请求的命中率。

lmcache:request_cache_hit_rate

直方图

每个请求的命中率分布。

lmcache:lookup_0_hit_requests

计数器

查找请求的总数,其中没有命中。

性能与延迟指标#

性能与延迟指标#

指标名称

类型

描述

lmcache:time_to_retrieve

直方图

从缓存中检索所花费的时间(秒)。

lmcache:time_to_store

直方图

存储到缓存所需的时间(秒)。

lmcache:time_to_lookup

直方图

在缓存中执行查找所花费的时间(秒)。

lmcache:retrieve_speed

直方图

检索速度(每秒令牌数)。

lmcache:store_speed

直方图

存储速度(每秒令牌数)。

lmcache:num_slow_retrieval_by_time

计数器

超过时间阈值的慢检索总数。

lmcache:num_slow_retrieval_by_speed

计数器

低于速度阈值的慢检索总数。

详细剖析指标#

剖析指标#

指标名称

类型

描述

lmcache:retrieve_process_tokens_time

直方图

处理检索中令牌的时间(秒)。

lmcache:retrieve_broadcast_time

直方图

在检索中广播内存对象的时间(秒)。

lmcache:retrieve_to_gpu_time

直方图

将数据移动到 GPU 的检索时间(秒)。

lmcache:store_process_tokens_time

直方图

存储中处理令牌的时间(秒)。

lmcache:store_from_gpu_time

直方图

从 GPU 移动数据到存储的时间(秒)。

lmcache:store_put_time

直方图

将数据存储到存储中的时间(秒)。

lmcache:remote_backend_batched_get_blocking_time

直方图

等待从远程后端获取数据的时间(秒)。

lmcache:instrumented_connector_batched_get_time

直方图

连接器层花费的时间(秒)。

缓存使用与生命周期指标#

缓存使用指标#

指标名称

类型

描述

lmcache:local_cache_usage

仪表

本地缓存使用量(以字节为单位)。

lmcache:remote_cache_usage

仪表

远程缓存使用量(以字节为单位)。

lmcache:local_storage_usage

仪表

本地存储使用量(以字节为单位)。

lmcache:request_cache_lifespan

直方图

请求缓存生命周期的分布(以分钟为单位)。

远程后端与网络指标#

远程后端指标#

指标名称

类型

描述

lmcache:num_remote_read_requests

计数器

对远程后端的读取请求总数。

lmcache:num_remote_read_bytes

计数器

从远程后端读取的字节总数。

lmcache:num_remote_write_requests

计数器

对远程后端的写请求总数。

lmcache:num_remote_write_bytes

计数器

写入远程后端的字节总数。

lmcache:remote_time_to_get

直方图

从远程后端获取数据所花费的时间(毫秒)。

lmcache:remote_time_to_put

直方图

将数据放入远程后端所花费的时间(毫秒)。

lmcache:remote_time_to_get_sync

直方图

从远程后端同步获取数据所花费的时间(毫秒)。

lmcache:remote_ping_latency

仪表

最新的远程后端 ping 延迟(毫秒)。

lmcache:remote_ping_errors

计数器

远程后端的总 ping 错误数量。

lmcache:remote_ping_successes

计数器

成功 ping 远程后端的总次数。

lmcache:remote_ping_error_code

仪表

远程后端的最新 ping 错误代码。

本地 CPU 后端指标#

本地 CPU 后端指标#

指标名称

类型

描述

lmcache:local_cpu_evict_count

计数器

本地 CPU 后端的总逐出次数。

lmcache:local_cpu_evict_keys_count

计数器

本地 CPU 后端中被逐出的键的总数。

lmcache:local_cpu_evict_failed_count

计数器

本地 CPU 后端中失败的逐出总数。

lmcache:local_cpu_hot_cache_count

仪表

热缓存中当前项目的数量。

lmcache:local_cpu_keys_in_request_count

仪表

当前正在处理的请求中的键的数量。

内存管理指标#

内存管理指标#

指标名称

类型

描述

lmcache:active_memory_objs_count

仪表

当前活动内存对象的数量。

lmcache:pinned_memory_objs_count

仪表

当前固定内存对象的数量。

lmcache:forced_unpin_count

计数器

由于超时而强制逐出的总数。

lmcache:pin_monitor_pinned_objects_count

仪表

PinMonitor 追踪的固定对象数量。

P2P 转移指标#

P2P 转移指标#

指标名称

类型

描述

lmcache:num_p2p_requests

计数器

P2P 转移请求的总数。

lmcache:num_p2p_transferred_tokens

计数器

通过 P2P 传输的令牌总数。

lmcache:p2p_time_to_transfer

直方图

P2P 传输所需时间(秒)。

lmcache:p2p_transfer_speed

直方图

P2P 传输速度(每秒令牌数)。

健康与内部系统指标#

健康与内部指标#

指标名称

类型

描述

lmcache:lmcache_is_healthy

仪表

LMCache 的整体健康状态(1 = 健康,0 = 不健康)。

lmcache:interval_get_blocking_failed_count

仪表

当前时间间隔内失败的阻塞获取操作数量。

lmcache:kv_msg_queue_size

仪表

批量消息发送器中 KV 消息队列的大小。

lmcache:remote_put_task_num

仪表

待处理的远程放置任务数量。

lmcache:storage_events_ongoing_count

仪表

当前进行中的存储事件数量。

lmcache:storage_events_done_count

仪表

成功完成的存储事件数量。

lmcache:storage_events_not_found_count

仪表

未找到请求数据的存储事件数量。

块统计指标#

块统计指标#

指标名称

类型

描述

lmcache:chunk_statistics_enabled

仪表

是否启用块统计收集(1 = 启用,0 = 禁用)。

lmcache:chunk_statistics_total_requests

仪表

按块统计处理的请求总数。

lmcache:chunk_statistics_total_chunks

仪表

处理的块总数。

lmcache:chunk_statistics_unique_chunks

仪表

估计遇到的唯一块的数量。

lmcache:chunk_statistics_reuse_rate

仪表

块重用率(0.0 到 1.0)。

lmcache:chunk_statistics_bloom_filter_size_mb

仪表

布隆过滤器的内存使用量(以兆字节为单位)。

lmcache:chunk_statistics_bloom_filter_fill_rate

仪表

布隆过滤器的填充率(0.0 到 1.0)。

lmcache:chunk_statistics_file_count

仪表

使用 file_hash 策略时创建的文件数量。

lmcache:chunk_statistics_current_file_size

仪表

活动统计文件的当前大小(以字节为单位)。

连接器指标#

连接器指标#

指标名称

类型

描述

lmcache:scheduler_unfinished_requests_count

仪表

调度器中未完成请求的当前计数。

lmcache:connector_load_specs_count

仪表

连接器中当前的加载规范数量。

lmcache:connector_request_trackers_count

仪表

连接器中活动请求跟踪器的数量。

lmcache:connector_kv_caches_count

仪表

连接器当前管理的 KV Cache 数量。

lmcache:connector_layerwise_retrievers_count

仪表

连接器中活动的逐层检索器数量。

lmcache:connector_invalid_block_ids_count

仪表

连接器遇到的无效块 ID 的数量。

lmcache:connector_requests_priority_count

仪表

连接器优先处理的请求数量。