跳到主要内容

教师使用指南

本页面向教师和课程设计者。学生第一次学习可以先读 Start Here

40 学时讲法

40 学时只保留主线:

Qwen -> GGUF -> llama.cpp -> Q8/Q5/Q4 -> profiling -> local API -> final report

建议取舍:

内容处理
LoRA/QLoRA讲判断框架,实验作为 smoke test 或选做
Jetson有设备就做一组迁移,没有设备就做路线阅读
vLLM/TensorRT/MLC/LiteRT放入 runtime 横向比较,不做必做实验
VLM/Agent只做系统设计复盘,不展开平台开发

60 学时讲法

60 学时可以加入:

  • 微调到再量化的完整闭环。
  • Jetson 功耗、温度和长稳测试。
  • vLLM serving 和 benchmark 选做。
  • MLC LLM、LiteRT、Arm Android 路线调研。
  • VLM/Agent 端云协同复盘。

这些扩展仍然要回到最终报告,不能变成工具展示。

项目里程碑

里程碑时间点交付物
M0第 1 次课后环境记录表
M1Part I 结束推理指标小测和 baseline plan
M2Part III 结束Q8/Q5/Q4 量化对比表
M3Part V 结束runtime/profiling 对比表
M4Part VI 结束local API smoke test 和服务日志
M5课程结束端侧部署评估报告

评分建议

维度权重看什么
问题定义15%场景、设备、约束是否清楚
实验可复现20%命令、版本、模型、日志路径是否完整
量化判断20%能否解释速度、内存和质量取舍
推理加速判断15%能否区分 offload、ctx、kernel、服务开销
Profiling 质量15%是否有真实记录和失败分析
工程结论15%推荐和不推荐方案是否有证据

课堂演示建议

  • 演示只跑一组最短 baseline,避免课堂时间被下载模型吃掉。
  • 量化对比可以用教师预先准备的日志讲解。
  • Jetson 演示前先确认电源、散热和存储。
  • 学生报告必须引用自己的日志路径,不接受只有截图的结论。