Start Here:我该怎么学这门课
这门课只有一条主线:
Qwen 小模型 -> GGUF -> llama.cpp -> Q8/Q5/Q4 -> profiling -> local API -> 部署报告
如果第一次打开课程,不要先读完整目录。先选一条路径,再按对应产出推进。
适合谁
| 学员类型 | 建议路径 | 重点 |
|---|---|---|
| 想快速判断课程是否能跑 | 2 小时路径 | 跑通 baseline,看到日志 |
| 正常课程或培训学员 | 40 学时路径 | 完成量化对比、profiling、API 和报告 |
| 研究生专题或项目制训练 | 60 学时路径 | 增加微调、Jetson、vLLM/移动端和系统复盘 |
需要什么基础
最低要求:
- 会在 Linux/macOS 终端执行命令。
- 能读懂 Python 基础脚本。
- 知道 LLM 是按 token 生成文本。
- 愿意保存日志和表格,而不是只看一次输出。
不要求:
- 从零训练 LLM。
- 手写 CUDA kernel。
- 完整推导 Transformer。
- 精通所有 runtime。
需要什么硬件
| 环境 | 能学到什么 | 限制 |
|---|---|---|
| Ubuntu Server + NVIDIA GPU | 主线环境,适合完成 baseline、量化、profiling、API | 不能代表 Jetson 的功耗和温度 |
| NVIDIA Jetson | 适合观察共享内存、功耗、温度和长期稳定性 | 编译和依赖更敏感 |
| CPU-only | 可练习模型加载、CPU baseline、API 和报告结构 | 不能完整体验 GPU offload |
| Mac | 可作为补充路线,验证本地小模型体验 | 本课程主线不按 Mac 调优 |
没有 Jetson 可以学。40 学时路径可以只用 Ubuntu Server + NVIDIA GPU 或云 GPU。没有 NVIDIA GPU 也可以完成部分 CPU baseline 和报告结构训练,但需要在报告中说明限制。
三条学习路径
A. 2 小时快速路径
目标:确认课程主线能跑通一次。
- 阅读 课程导读 和本页。
- 完成 Ubuntu Server 与 NVIDIA GPU 环境 的环境快照。
- 完成 Qwen 基线推理。
- 保存 baseline log。
- 把环境和 baseline 填入 最终报告模板 的第 1-3 节。
最低产出:
results/prereq-env.txt
logs/qwen-baseline-*.txt
report/final_report.md 的前 3 节草稿
B. 40 学时基础路径
目标:完成端侧 Qwen 小模型部署评估报告。
- Part I:推理指标、LLM 流程、量化数学和 Linux/GPU 工具链。
- Part II:明确目标场景、设备约束和验收指标。
- Part III:完成 Q8/Q5/Q4 或同类量化对比。
- Part V/VI:完成 GPU offload、ctx-size、threads、llama-bench 和 profiling。
- Part VI:启动本地 OpenAI-compatible API,并做 smoke test。
- Part VII:整理最终报告。
必须产出:
环境记录
baseline log
quant comparison table
profiling table
local API smoke test
final deployment report
C. 60 学时完整路径
目标:在 40 学时主线基础上加入更多工程取舍。
新增内容:
- LoRA/QLoRA smoke test 和 adapter 去留判断。
- Jetson 迁移、功耗、温度和稳定性对比。
- vLLM serving、MLC LLM、LiteRT/Android 路线阅读或选做。
- VLM/Agent 系统设计和端云协同复盘。
这些内容是扩展,不改变主线报告。报告仍然要回答:在指定设备上,哪个模型、哪个量化版本、哪个 runtime 参数最值得采用,为什么。
第一次学习该做什么
第一次打开课程,请按顺序完成:
- 阅读本页。
- 阅读 环境与版本矩阵,确认自己的设备属于哪条路径。
- 建立实验目录:
mkdir -p ~/edge-ai-lab/{env,models,repos,scripts,logs,results,report}
最终会产出什么
最终产出不是“跑通一次模型”,而是一份可评审的端侧部署评估报告。它需要说明:
- 目标设备和约束是什么。
- 为什么选择这个 Qwen 小模型和量化版本。
- 量化后如何 serving、benchmark 和 API 化。
- 哪些结果来自真实日志。
- 哪些方案不推荐,以及原因。
- 下一轮优化应该做什么。