样例日志与结果表
本页只展示“怎么读日志”和“怎么填表”。这些片段不代表标准性能。
llama.cpp timings 样例
llama_print_timings: load time = 示例 ms
llama_print_timings: prompt eval time = 示例 ms / 示例 tokens
llama_print_timings: eval time = 示例 ms / 示例 runs
llama_print_timings: total time = 示例 ms / 示例 tokens
字段解释:
| 字段 | 对应阶段 | 报告中怎么写 |
|---|---|---|
load time | 模型加载和初始化 | 不要混入稳定 decode |
prompt eval time | prefill | 可近似解释 TTFT 的主要部分 |
eval time | decode | 用于记录 tokens/s |
total time | CLI 总耗时 | 不等于 API 端到端延迟 |
如果日志字段名随 llama.cpp 版本变化,以实际输出为准。
量化对比样表
| model | quant | ctx | ngl | TTFT / prefill | tokens/s | peak memory | 质量观察 | 结论 |
|---|---|---|---|---|---|---|---|---|
| Qwen 示例 | Q8 | 2048 | 99 | 示例 | 示例 | 示例 | 输出稳定 | 质量优先 |
| Qwen 示例 | Q5 | 2048 | 99 | 示例 | 示例 | 示例 | 轻微差异 | 推荐 |
| Qwen 示例 | Q4 | 2048 | 99 | 示例 | 示例 | 示例 | 有退化 | 内存受限时使用 |
API smoke test 样例
HTTP status: 200
elapsed: 示例 s
response json: ok
server log: no OOM, no fallback warning
API 记录要写明:
llama-server启动命令。- 绑定地址和端口。
- 请求参数。
- HTTP 状态码。
- 是否超时。
- server 日志中是否有 OOM、fallback、unsupported。
三句话复盘样例
我比较了 Q8/Q5/Q4 三个版本。
Q5 在当前设备上比 Q8 更省内存,质量退化不明显,速度提升有限。
因此后续 profiling 以 Q5 作为主版本,Q4 作为低内存备选。