跳到主要内容

样例日志与结果表

本页只展示“怎么读日志”和“怎么填表”。这些片段不代表标准性能。

llama.cpp timings 样例

llama_print_timings: load time = 示例 ms
llama_print_timings: prompt eval time = 示例 ms / 示例 tokens
llama_print_timings: eval time = 示例 ms / 示例 runs
llama_print_timings: total time = 示例 ms / 示例 tokens

字段解释:

字段对应阶段报告中怎么写
load time模型加载和初始化不要混入稳定 decode
prompt eval timeprefill可近似解释 TTFT 的主要部分
eval timedecode用于记录 tokens/s
total timeCLI 总耗时不等于 API 端到端延迟

如果日志字段名随 llama.cpp 版本变化,以实际输出为准。

量化对比样表

modelquantctxnglTTFT / prefilltokens/speak memory质量观察结论
Qwen 示例Q8204899示例示例示例输出稳定质量优先
Qwen 示例Q5204899示例示例示例轻微差异推荐
Qwen 示例Q4204899示例示例示例有退化内存受限时使用

API smoke test 样例

HTTP status: 200
elapsed: 示例 s
response json: ok
server log: no OOM, no fallback warning

API 记录要写明:

  • llama-server 启动命令。
  • 绑定地址和端口。
  • 请求参数。
  • HTTP 状态码。
  • 是否超时。
  • server 日志中是否有 OOM、fallback、unsupported。

三句话复盘样例

我比较了 Q8/Q5/Q4 三个版本。
Q5 在当前设备上比 Q8 更省内存,质量退化不明显,速度提升有限。
因此后续 profiling 以 Q5 作为主版本,Q4 作为低内存备选。