lmcache query#

lmcache query 命令发送一个单一的兼容 OpenAI 的推理请求，并报告令牌和延迟指标。它有两个目标：

lmcache query {engine,kvcache} [options]

engine — 向服务引擎的 HTTP API 发送一个请求。
kvcache — 查询 KV Cache 端点（尚未实现）。

查询引擎#

query engine 子命令向引擎 API 发送一个请求并报告指标。 --prompt 支持占位符： {lmcache} 加载 lmcache/cli/documents/lmcache.txt，并且可以通过 --documents NAME=PATH 传递自定义文档。提示的令牌计数直接来自引擎报告的使用数据 (stream_options: {include_usage: true})。

lmcache query engine --url http://localhost:8000/v1 \
  --prompt "{lmcache} Summarize LMCache usage." \
  --format terminal \
  --max-tokens 128

================= Query Engine =================
Model:                         facebook/opt-125m
Input tokens:                                618
--------------- Latency Metrics ----------------
Output tokens:                                 9
TTFT (ms):                                 26.88
TPOT (ms/token):                            0.91
Total latency (ms):                        35.05
Throughput (tokens/s):                   1100.64
================================================

选项#

标志	必需的	描述
`--url URL`	是	服务引擎基础 URL（例如 `http://localhost:8000/v1`）。
`--prompt TEXT`	是	带有可选 `{name}` 占位符的提示文本。 `{lmcache}` 展开为捆绑的示例文档。
`--model ID`	不	服务引擎的模型 ID。如果省略，将根据引擎报告的使用情况自动检测。
`--max-tokens N`	不	最大完成令牌数（默认：128）。
`--timeout SECS`	不	HTTP 超时（单位：秒，默认值：30）。
`--documents NAME=PATH`	不	在 `--prompt` 中加载 `{NAME}` 的文件文本。接受一个或多个 `NAME=PATH` 值。
`--completions`	不	仅使用 `POST /v1/completions`。
`--chat-first`	不	首先尝试 `/v1/chat/completions`，然后回退到 `/v1/completions`。
`--format`	不	输出格式：`terminal`（默认）或`json`。
`--output PATH`	不	将指标保存到文件中（格式遵循 `--format`）。
`-q` / `--quiet`	不	抑制标准输出。仅返回退出代码。