lmcache 查询#
lmcache query 命令发送一个单一的兼容 OpenAI 的推理请求,并报告令牌和延迟指标。它有两个目标:
lmcache query {engine,kvcache} [options]
engine— 向服务引擎的 HTTP API 发送一个请求。kvcache— 查询 KV Cache 端点(尚未实现)。
查询引擎#
query engine 子命令向引擎 API 发送一个请求并报告指标。 --prompt 支持占位符: {lmcache} 加载 lmcache/cli/documents/lmcache.txt,并且可以通过 --documents NAME=PATH 传递自定义文档。提示的令牌计数直接来自引擎报告的使用数据 (stream_options: {include_usage: true})。
lmcache query engine --url http://localhost:8000/v1 \
--prompt "{lmcache} Summarize LMCache usage." \
--format terminal \
--max-tokens 128
================= Query Engine =================
Model: facebook/opt-125m
Input tokens: 618
--------------- Latency Metrics ----------------
Output tokens: 9
TTFT (ms): 26.88
TPOT (ms/token): 0.91
Total latency (ms): 35.05
Throughput (tokens/s): 1100.64
================================================
选项#
标志 |
必需 |
描述 |
|---|---|---|
|
是 |
服务引擎基础 URL(例如 |
|
是 |
带有可选 |
|
不 |
服务引擎的模型 ID。如果省略,将根据引擎报告的使用情况自动检测。 |
|
不 |
最大完成令牌数(默认:128)。 |
|
不 |
HTTP 超时(单位:秒,默认值:30)。 |
|
不 |
在 |
|
不 |
仅使用 |
|
不 |
首先尝试 |
|
不 |
输出格式: |
|
不 |
将指标保存到文件中(格式遵循 |
|
不 |
抑制标准输出。仅返回退出代码。 |