lmcache 查询#

lmcache query 命令发送一个单一的兼容 OpenAI 的推理请求,并报告令牌和延迟指标。它有两个目标:

lmcache query {engine,kvcache} [options]
  • engine — 向服务引擎的 HTTP API 发送一个请求。

  • kvcache — 查询 KV Cache 端点(尚未实现)。

查询引擎#

query engine 子命令向引擎 API 发送一个请求并报告指标。 --prompt 支持占位符: {lmcache} 加载 lmcache/cli/documents/lmcache.txt,并且可以通过 --documents NAME=PATH 传递自定义文档。提示的令牌计数直接来自引擎报告的使用数据 (stream_options: {include_usage: true})。

lmcache query engine --url http://localhost:8000/v1 \
  --prompt "{lmcache} Summarize LMCache usage." \
  --format terminal \
  --max-tokens 128
================= Query Engine =================
Model:                         facebook/opt-125m
Input tokens:                                618
--------------- Latency Metrics ----------------
Output tokens:                                 9
TTFT (ms):                                 26.88
TPOT (ms/token):                            0.91
Total latency (ms):                        35.05
Throughput (tokens/s):                   1100.64
================================================

选项#

标志

必需

描述

--url URL

服务引擎基础 URL(例如 http://localhost:8000/v1)。

--prompt TEXT

带有可选 {name} 占位符的提示文本。 {lmcache} 展开为捆绑的示例文档。

--model ID

服务引擎的模型 ID。如果省略,将根据引擎报告的使用情况自动检测。

--max-tokens N

最大完成令牌数(默认:128)。

--timeout SECS

HTTP 超时(单位:秒,默认值:30)。

--documents NAME=PATH

--prompt 中加载 {NAME} 的文件文本。接受一个或多个 NAME=PATH 值。

--completions

仅使用 POST /v1/completions

--chat-first

首先尝试 /v1/chat/completions,然后回退到 /v1/completions

--format

输出格式:terminal``(默认)或``json

--output PATH

将指标保存到文件中(格式遵循 --format)。

-q / --quiet

抑制标准输出。仅返回退出代码。