可观察性#

LMCache MP 模式(多进程)提供三种互补的可观察性模式:指标(通过 OTel 的 Prometheus 计数器)、日志(带有可选 OTel 日志转发的 Python 日志记录)和 追踪(OTel span,用于每个请求的延迟分析)。

这三种模式都由一个内部的 EventBus 提供支持,该总线将生产者(L1Manager、StorageManager、MPCacheServer)与订阅者解耦。

快速开始#

默认情况下,指标日志记录是启用的;追踪是禁用的。无需额外的标志:

lmcache server \
    --l1-size-gb 100 --eviction-policy LRU

要启用追踪,请提供 OTLP 端点:

lmcache server \
    --l1-size-gb 100 --eviction-policy LRU \
    --enable-tracing --otlp-endpoint http://localhost:4317

配置#

参数

默认

描述

--disable-observability

关闭

主开关:完全禁用 EventBus(不注册任何指标、日志记录或追踪订阅者)。

--disable-metrics

关闭

跳过指标订阅者(Prometheus 端点未启动)。

--disable-logging

关闭

跳过日志订阅者。

--enable-tracing

关闭

注册追踪订阅者。需要 --otlp-endpoint

--event-bus-queue-size

10000

事件总线队列中最大事件数,超过后将进行尾部丢弃。

--otlp-endpoint

(无)

OTLP gRPC 端点(例如 http://localhost:4317)。用于导出指标(推送模式)和追踪数据。

--prometheus-port

9090

Prometheus /metrics HTTP 端点的端口。

--metrics-sample-rate

0.01

用于生命周期直方图的 chunk/block 采样比例 (0, 1.0]。计数器始终统计所有事件。默认值为 1%。

--trace-level

(无)

在指定级别启用追踪录制。目前仅支持 storage(记录 StorageManager 公共 API 调用以便离线回放)。未设置时,追踪录制关闭。详情请参见 追踪记录

--trace-output

(无)

追踪文件的写入路径。若设置了 --trace-level 但省略此项,将在 $TMPDIR 下自动生成一个带时间戳的文件(lmcache-trace-<pid>-<UTC>.lct),并以 INFO 级别记录其路径。

环境变量:

变量

默认

描述

LMCACHE_LOG_LEVEL

INFO

控制所有 LMCache 日志记录器的日志级别。有效值:DEBUGINFOWARNINGERRORCRITICAL