健康监控器#

LMCache 包含一个全面的健康监测框架，持续监测缓存引擎及其组件的健康状况。此功能对于生产环境的部署至关重要，可以检测并响应远程存储后端的故障。

概述#

健康监控器提供：

健康监测系统由三个主要组件组成：

健康监控器使用自动发现机制来查找和实例化健康检查：

此设计允许您通过在检查包中简单地创建一个新模块来添加新的健康检查。

健康监控配置通过您的 LMCache 配置的 extra_config 部分完成：

健康监控配置选项#
配置键	默认值	描述
`ping_interval`	`30.0`	健康检查周期之间的间隔（以秒为单位）
`ping_timeout`	`5.0`	每次 ping 操作的超时时间（以秒为单位）
`get_blocking_failed_threshold`	`10`	检查时间间隔内获取阻塞失败的最大次数
`waiting_time_for_recovery`	`300.0`	如果 get_blocking 失败，恢复的等待时间（以秒为单位）

健康监控在后台线程中运行：

当初始化或后初始化不可恢复地失败时：

这确保不可恢复的初始化错误不会导致级联故障，并且系统可以优雅地回退到重计算。

当健康监测器检测到不健康状态时：

这可以防止在远程后端不可用时发生级联故障。

此检查监控与远程存储后端（例如，Redis、Valkey）的连接性。

检查内容：

当它处于活动状态时：

报告的指标：

健康监控器通过 Prometheus 端点公开指标：

健康监控指标#
指标名称	类型	描述
`lmcache:is_healthy`	仪表	整体系统健康状态（1 = 健康，0 = 不健康）
`lmcache:remote_ping_latency`	仪表	最新的远程后端 ping 延迟（毫秒）
`lmcache:remote_ping_error_code`	仪表	最新的 ping 错误代码（0 = 成功，-1 = 超时，-2 = 通用错误）
`lmcache:remote_ping_errors`	计数器	远程后端的总 ping 错误数量
`lmcache:remote_ping_successes`	计数器	成功 ping 远程后端的总次数

健康检查系统使用以下错误代码：

您可以通过在 lmcache/v1/health_monitor/checks/ 目录中创建新模块来添加自定义健康检查。

当 LMCache 启动时，自定义检查将被自动发现并注册。