Start Here：我该怎么学这门课

这门课只有一条主线：

Qwen 小模型 -> GGUF -> llama.cpp -> Q8/Q5/Q4 -> profiling -> local API -> 部署报告

如果第一次打开课程，不要先读完整目录。先选一条路径，再按对应产出推进。

适合谁

学员类型	建议路径	重点
想快速判断课程是否能跑	2 小时路径	跑通 baseline，看到日志
正常课程或培训学员	40 学时路径	完成量化对比、profiling、API 和报告
研究生专题或项目制训练	60 学时路径	增加微调、Jetson、vLLM/移动端和系统复盘

需要什么基础

最低要求：

会在 Linux/macOS 终端执行命令。
能读懂 Python 基础脚本。
知道 LLM 是按 token 生成文本。
愿意保存日志和表格，而不是只看一次输出。

不要求：

从零训练 LLM。
手写 CUDA kernel。
完整推导 Transformer。
精通所有 runtime。

需要什么硬件

环境	能学到什么	限制
Ubuntu Server + NVIDIA GPU	主线环境，适合完成 baseline、量化、profiling、API	不能代表 Jetson 的功耗和温度
NVIDIA Jetson	适合观察共享内存、功耗、温度和长期稳定性	编译和依赖更敏感
CPU-only	可练习模型加载、CPU baseline、API 和报告结构	不能完整体验 GPU offload
Mac	可作为补充路线，验证本地小模型体验	本课程主线不按 Mac 调优

没有 Jetson 可以学。40 学时路径可以只用 Ubuntu Server + NVIDIA GPU 或云 GPU。没有 NVIDIA GPU 也可以完成部分 CPU baseline 和报告结构训练，但需要在报告中说明限制。

三条学习路径

A. 2 小时快速路径

目标：确认课程主线能跑通一次。

阅读课程导读和本页。
完成 Ubuntu Server 与 NVIDIA GPU 环境的环境快照。
完成 Qwen 基线推理。
保存 baseline log。
把环境和 baseline 填入最终报告模板的第 1-3 节。

最低产出：

results/prereq-env.txt
logs/qwen-baseline-*.txt
report/final_report.md 的前 3 节草稿

B. 40 学时基础路径

目标：完成端侧 Qwen 小模型部署评估报告。

Part I：推理指标、LLM 流程、量化数学和 Linux/GPU 工具链。
Part II：明确目标场景、设备约束和验收指标。
Part III：完成 Q8/Q5/Q4 或同类量化对比。
Part V/VI：完成 GPU offload、ctx-size、threads、llama-bench 和 profiling。
Part VI：启动本地 OpenAI-compatible API，并做 smoke test。
Part VII：整理最终报告。

必须产出：

环境记录
baseline log
quant comparison table
profiling table
local API smoke test
final deployment report

C. 60 学时完整路径

目标：在 40 学时主线基础上加入更多工程取舍。

新增内容：

LoRA/QLoRA smoke test 和 adapter 去留判断。
Jetson 迁移、功耗、温度和稳定性对比。
vLLM serving、MLC LLM、LiteRT/Android 路线阅读或选做。
VLM/Agent 系统设计和端云协同复盘。

这些内容是扩展，不改变主线报告。报告仍然要回答：在指定设备上，哪个模型、哪个量化版本、哪个 runtime 参数最值得采用，为什么。

第一次学习该做什么

第一次打开课程，请按顺序完成：

阅读本页。
阅读环境与版本矩阵，确认自己的设备属于哪条路径。
建立实验目录：

mkdir -p ~/edge-ai-lab/{env,models,repos,scripts,logs,results,report}

保存一次环境快照。
阅读 Qwen 基线推理，准备第一次 baseline。
打开最终报告模板，先填项目背景和环境。

最终会产出什么

最终产出不是“跑通一次模型”，而是一份可评审的端侧部署评估报告。它需要说明：

目标设备和约束是什么。
为什么选择这个 Qwen 小模型和量化版本。
量化后如何 serving、benchmark 和 API 化。
哪些结果来自真实日志。
哪些方案不推荐，以及原因。
下一轮优化应该做什么。

适合谁​

需要什么基础​

需要什么硬件​

三条学习路径​

A. 2 小时快速路径​

B. 40 学时基础路径​

C. 60 学时完整路径​

第一次学习该做什么​

最终会产出什么​

适合谁