跳到主要内容

最终报告模板

每章实验结束后都应该把结果写入这份报告,而不是最后才整理。

# 端侧模型量化部署评估报告

## 1. 场景与设备约束

- 应用场景:
- 目标用户:
- 为什么需要端侧:
- 延迟要求:
- 内存限制:
- 功耗/温度限制:
- 隐私、网络或成本约束:

## 2. 实验环境

| 项目 | 记录 |
| --- | --- |
| OS | 待填 |
| CPU | 待填 |
| RAM | 待填 |
| GPU / Jetson | 待填 |
| Driver / CUDA / JetPack | 待填 |
| Python | 待填 |
| llama.cpp commit | 待填 |
| 模型来源 | 待填 |
| 模型许可证 | 待填 |

## 3. Baseline 结果

| 指标 | 结果 | 说明 |
| --- | --- | --- |
| 模型文件 | 待填 | 待填 |
| 量化格式 | 待填 | 待填 |
| prompt | 待填 | 待填 |
| `ctx-size` | 待填 | 待填 |
| `-ngl` | 待填 | 待填 |
| 首 token / prompt eval | 待填 | 日志路径 |
| tokens/s / eval | 待填 | 日志路径 |
| 峰值内存/显存 | 待填 | 监控方式 |
| 输出质量 | 待填 | 简短观察 |

## 4. 量化版本对比

| 版本 | 文件大小 | TTFT / prefill | tokens/s | 内存 | 输出质量 | 判断 |
| --- | ---: | ---: | ---: | ---: | --- | --- |
| Q8 | 待填 | 待填 | 待填 | 待填 | 待填 | 待填 |
| Q5 | 待填 | 待填 | 待填 | 待填 | 待填 | 待填 |
| Q4 | 待填 | 待填 | 待填 | 待填 | 待填 | 待填 |

## 5. Runtime 参数与加速实验

| 参数变化 | TTFT / prefill | tokens/s | 内存 | 现象 | 结论 |
| --- | ---: | ---: | ---: | --- | --- |
| `-ngl` | 待填 | 待填 | 待填 | 待填 | 待填 |
| `ctx-size` | 待填 | 待填 | 待填 | 待填 | 待填 |
| threads | 待填 | 待填 | 待填 | 待填 | 待填 |
| llama-bench | 待填 | 待填 | 待填 | 待填 | 待填 |

## 6. API 服务测试

- 启动命令:
- 绑定地址和端口:
- 请求样例:
- 响应摘要:
- HTTP 状态:
- 是否超时:
- server 日志异常:
- CLI 和 API 的差异:

## 7. 端侧部署风险

- 温度:
- 内存:
- 长上下文:
- 并发:
- 输出质量:
- 许可证:
- 安全和日志:
- 端云 fallback:

## 8. 最终部署建议

- 推荐模型:
- 推荐量化版本:
- 推荐 runtime:
- 推荐参数:
- 不推荐方案:
- 原因:
- 下一步验证:

## 9. 附录

- 环境日志:
- baseline 日志:
- 量化对比日志:
- profiling 日志:
- API smoke test 日志:
- 参考资料:

使用规则

  • 没有采集到的字段写“未记录”,不要编造。
  • 每个数字都要能追溯到日志、命令或监控记录。
  • 最终结论必须包含“不推荐方案”和原因。
  • 量化后必须说明如何进入 serving、benchmark 和 API 化链路。