跳到主要内容

40/52 学时教学安排

本页目标

本课程按正式课程体量设计,而不是一次性的专题分享。完整版本为 52 学时,可以裁剪为 40 学时基础版。这里的“学时”按 45-50 分钟理解,包含讲授、演示、实验、讨论、作业说明和项目复盘。

课程的主线是:从端侧部署问题框架出发,学习量化压缩与推理加速方法,再在 Ubuntu Server 和 NVIDIA Jetson 两类硬件上完成 Qwen 小模型部署评估。

52 学时完整版

部分内容学时产出
导读课程定位、资料取舍、项目主线、学习路径2学习路线图
Part I 前置知识ML 推理、Transformer/LLM、量化数学、Linux/GPU/Jetson 工具链8基础概念检查表
Part II 端侧部署问题框架场景、指标、端云协同、硬件约束、项目评估6端侧部署评估模板
Part III 量化与压缩方法PTQ/QAT、INT8/INT4、LLM 量化、KV Cache、精度修复、蒸馏压缩12量化路线选择表
Part IV 推理加速与 Runtime图优化、算子融合、TensorRT、TensorRT-LLM、llama.cpp、vLLM、MLC、fallback10Runtime 选型矩阵
Part V Ubuntu / Jetson 实作Ubuntu Server、Jetson Orin、Qwen GGUF、profiling、API 服务10实验日志和性能对比
Part VI 案例复盘与扩展路线视觉、小型 LLM、VLM、Agent、最终项目报告4端侧部署评估报告
合计52

40 学时裁剪版

40 学时版本保留课程主线,但减少横向框架比较和高级推理服务内容:

裁剪项处理方式节省学时
前置知识中的部分数学推导保留 scale/zero-point/outlier,减少推导练习2
量化论文细节保留方法动机和适用边界,减少论文实验讨论3
Runtime 横向比较保留 llama.cpp、TensorRT、ONNX Runtime,其他作为阅读3
Jetson 深入优化保留环境和 tegrastats,减少 DLA/power mode 深入2
VLM/Agent 案例保留系统图和风险点,减少案例讨论2
合计节省12

理论、实验、项目比例

类型52 学时40 学时说明
理论讲授2419前置知识、方法、runtime 原理
演示与讨论86框架选型、案例分析、日志阅读
实验1411Ubuntu / Jetson / Qwen / profiling
项目与复盘64最终报告、风险清单、方案评审

贯穿项目

最终项目是 端侧 Qwen 小模型部署评估报告。报告至少包含:

  • 目标硬件:Ubuntu Server 或 Jetson。
  • 模型与 runtime:Qwen GGUF、llama.cpp、可选 TensorRT/ONNX Runtime 演示。
  • 量化对比:至少 Q8/Q5/Q4 或同类低比特变体。
  • 推理加速实验:GPU offload、ctx-size、threads、batch 或 FlashAttention 相关参数。
  • Profiling 结果:首 token、tokens/s、峰值内存、功耗/温度、失败日志。
  • 结论:推荐部署方案、不推荐方案、风险和下一步。

详细要求见 最终项目与验收标准

每部分产出清单

部分课堂产出项目沉淀
导读学习路线、资料取舍、项目说明报告目录草案
Part I 前置知识概念检查表、命令环境认知环境基线字段
Part II 部署框架指标和约束表、决策图目标设备和约束说明
Part III 量化压缩量化路线选择表、误差分析方法量化实验设计
Part IV 推理加速Runtime 选型矩阵、瓶颈定位表推理加速实验设计
Part V 实作运行日志、profiling 表、API smoke test真实实验结果
Part VI 复盘案例讨论、风险清单、方案评审最终部署评估报告

学时安排图

课后作业形态

  • 阅读题:每个 Part 选 2-3 个官方资料或论文摘要。
  • 检查题:概念解释、方法选择、日志判断。
  • 实验题:运行命令、保存日志、填表。
  • 项目题:把实验结果写成可评审的部署报告。

取舍说明

本课程不是论文精读课,也不是某个框架的 API 手册。课程体量虽然达到 40+ 学时,但主线仍然聚焦端侧量化部署:能解释方法,能跑实验,能读懂日志,能给出工程判断。