最终报告模板

每章实验结束后都应该把结果写入这份报告，而不是最后才整理。

# 端侧模型量化部署评估报告

## 1. 场景与设备约束

- 应用场景：
- 目标用户：
- 为什么需要端侧：
- 延迟要求：
- 内存限制：
- 功耗/温度限制：
- 隐私、网络或成本约束：

## 2. 实验环境

| 项目 | 记录 |
| --- | --- |
| OS | 待填 |
| CPU | 待填 |
| RAM | 待填 |
| GPU / Jetson | 待填 |
| Driver / CUDA / JetPack | 待填 |
| Python | 待填 |
| llama.cpp commit | 待填 |
| 模型来源 | 待填 |
| 模型许可证 | 待填 |

## 3. Baseline 结果

| 指标 | 结果 | 说明 |
| --- | --- | --- |
| 模型文件 | 待填 | 待填 |
| 量化格式 | 待填 | 待填 |
| prompt | 待填 | 待填 |
| `ctx-size` | 待填 | 待填 |
| `-ngl` | 待填 | 待填 |
| 首 token / prompt eval | 待填 | 日志路径 |
| tokens/s / eval | 待填 | 日志路径 |
| 峰值内存/显存 | 待填 | 监控方式 |
| 输出质量 | 待填 | 简短观察 |

## 4. 量化版本对比

| 版本 | 文件大小 | TTFT / prefill | tokens/s | 内存 | 输出质量 | 判断 |
| --- | ---: | ---: | ---: | ---: | --- | --- |
| Q8 | 待填 | 待填 | 待填 | 待填 | 待填 | 待填 |
| Q5 | 待填 | 待填 | 待填 | 待填 | 待填 | 待填 |
| Q4 | 待填 | 待填 | 待填 | 待填 | 待填 | 待填 |

## 5. Runtime 参数与加速实验

| 参数变化 | TTFT / prefill | tokens/s | 内存 | 现象 | 结论 |
| --- | ---: | ---: | ---: | --- | --- |
| `-ngl` | 待填 | 待填 | 待填 | 待填 | 待填 |
| `ctx-size` | 待填 | 待填 | 待填 | 待填 | 待填 |
| threads | 待填 | 待填 | 待填 | 待填 | 待填 |
| llama-bench | 待填 | 待填 | 待填 | 待填 | 待填 |

## 6. API 服务测试

- 启动命令：
- 绑定地址和端口：
- 请求样例：
- 响应摘要：
- HTTP 状态：
- 是否超时：
- server 日志异常：
- CLI 和 API 的差异：

## 7. 端侧部署风险

- 温度：
- 内存：
- 长上下文：
- 并发：
- 输出质量：
- 许可证：
- 安全和日志：
- 端云 fallback：

## 8. 最终部署建议

- 推荐模型：
- 推荐量化版本：
- 推荐 runtime：
- 推荐参数：
- 不推荐方案：
- 原因：
- 下一步验证：

## 9. 附录

- 环境日志：
- baseline 日志：
- 量化对比日志：
- profiling 日志：
- API smoke test 日志：
- 参考资料：

使用规则

没有采集到的字段写“未记录”，不要编造。
每个数字都要能追溯到日志、命令或监控记录。
最终结论必须包含“不推荐方案”和原因。
量化后必须说明如何进入 serving、benchmark 和 API 化链路。

使用规则​

使用规则