跳到主要内容

类似教材与教程参考

建议学时

2 学时。

本页用于教师备课和学生扩展阅读。它不是普通链接列表,而是帮助课程回答三个问题:

  1. 已有公开课程和教程各自强在哪里。
  2. 哪些内容值得吸收到本课程。
  3. 哪些内容不适合直接照搬。

学习目标

  • 收集可参考的公开课程、在线教材和体系化教程。
  • 明确每份资料适合借鉴什么,而不是简单照搬目录。
  • 为后续扩写课程书提供更大的内容池。
  • 能把外部资料转化为本课程自己的章节、实验和项目要求。
  • 能判断当前 40+ 学时课程体量是否足够支撑学习目标。

选材原则

本页优先收录英文公开资料,因为端侧推理、量化、LLM serving 和 ML systems 的一手资料大多来自英文课程、论文和官方教程。中文资料可作为实作补充,但不作为唯一依据。

筛选时看五个标准:

标准说明
体系化课程、book、notebook series 或官方 tutorial 优先
主题相关量化、模型压缩、边缘部署、推理系统、LLM serving 优先
可实作有代码、notebook、实验或部署流程更有价值
可迁移能转化为 Ubuntu、Jetson、Qwen 或课程项目
不过度偏厂商官方资料可用,但不能把单一路线写成唯一答案

与本课程的关系

本课程不是把已有课程拼接起来。它的定位更窄,也更工程化:

外部课程通常覆盖范围更宽,本课程要做的是把它们收束到“端侧模型量化、压缩、推理加速和部署评估”这一条主线。

主参考课程与教材

资料类型适合借鉴不直接照搬
MIT 6.5940 TinyML and Efficient Deep Learning Computing课程高效深度学习、剪枝、量化、TinyML、硬件感知优化的课程结构电路级和硬件设计细节不作为主线
EfficientML.ai课程/资料站模型压缩、神经网络部署、TinyML 与系统优化的整体框架不把 TinyML 作为唯一端侧形态
The Machine Learning Systems Book在线教材ML 系统、部署、可靠性、性能评估和生产化视角泛 MLOps、组织流程和平台治理不展开
Hugging Face LLM Course在线课程Transformer、tokenizer、生成模型和生态基础训练、微调和数据集章节只保留必要背景
Full Stack Deep Learning课程从模型到产品和工程系统的完整视角本课程不变成通用 AI 产品课

对 MIT 6.5940 / EfficientML 的吸收

这类课程最值得借鉴的是“算法、模型结构、硬件约束、系统效率放在一起讲”的组织方式。

可吸收内容:

  • 用硬件约束反推模型设计和优化策略。
  • 把剪枝、量化、蒸馏、NAS、TinyML 放在同一个高效 AI 框架里理解。
  • 通过实验让学生理解压缩不是只看模型文件大小。
  • 强调 memory、compute、latency 和 energy 的综合权衡。

本课程的取舍:

吸收调整
高效 AI 的整体视角收束到端侧部署和 Qwen/Jetson 实作
硬件感知优化用 Ubuntu Server 和 Jetson 观察硬件差异
量化/剪枝/蒸馏方法不展开所有数学推导和硬件电路
TinyML 思路扩展到 LLM、VLM、Agent 和端云协同

对 ML Systems Book 的吸收

ML Systems Book 的价值在于把模型部署看成系统工程,而不是单一算法问题。

可吸收内容:

  • 指标定义要服务于真实系统。
  • 部署环境、数据分布、可靠性和监控会影响模型价值。
  • 性能评估需要说明硬件、输入、负载和约束。
  • 系统上线需要考虑失败恢复、维护和演进。

本课程的取舍:

吸收调整
系统指标和可靠性视角落到端侧 latency、tokens/s、内存、功耗和温度
部署生命周期简化为课程项目报告和复盘流程
生产化视角不展开完整 MLOps 平台建设
Benchmark 严谨性转化为课堂可执行的实验记录模板

对 Hugging Face LLM Course 的吸收

Hugging Face LLM Course 适合补足学习者的 LLM 生态基础。

可吸收内容:

  • Transformer 和 tokenizer 的入门解释。
  • 模型加载、pipeline、generation 的基本概念。
  • chat template 和 instruct 模型的输入格式。
  • Hugging Face 生态中的模型、数据集和工具概念。

本课程的取舍:

吸收调整
tokenizer、生成和模型生态基础作为前置知识,不占用过多主课时
Transformers 工具链用于理解模型格式,不作为唯一 runtime
LLM 入门顺序服务于本地部署实验
训练/微调内容只作为扩展,不作为 40 学时主线

量化与压缩教程

资料类型适合借鉴课程化处理
PyTorch Quantization官方教程PTQ/QAT、量化 API 和 PyTorch 术语体系提炼概念和流程,不逐 API 讲
torchao官方文档PyTorch 新低比特/量化生态作为现代 PyTorch 路线补充
ONNX Runtime Quantization官方教程静态/动态量化、校准、ONNX 部署链路用于传统模型流程图
TensorFlow Lite Model Optimization官方教程移动端模型优化、TFLite PTQ/QAT用于移动端对比
OpenVINO NNCF官方教程PTQ、NNCF、Intel/OpenVINO 部署路径用于多 runtime 对比
Intel Neural Compressor工具/教程跨框架量化和压缩实践作为工具生态补充

这些资料容易让课程变成 API 手册。本课程只保留概念、流程、失败模式和实验设计。

LLM 部署与服务化教程

资料类型适合借鉴课程化处理
llama.cpp项目文档GGUF、本地 LLM、量化模型、server 和 benchmark作为课程主实验框架
Qwen llama.cpp 本地运行官方教程Qwen 小模型本地部署实作作为 Ubuntu/Qwen baseline
Qwen llama.cpp 量化官方教程Qwen GGUF 量化实作路线作为 Q8/Q5/Q4 对比参考
vLLM Documentation官方文档LLM serving、PagedAttention、KV Cache 管理作为服务化扩展,不作为主实验
TensorRT-LLM官方文档NVIDIA GPU 上的 LLM 推理优化讲推理加速路径,不要求全员实作
MLC LLM官方教程跨平台 LLM 编译、部署和移动端方向用于跨平台视野扩展

LLM 服务化资料要帮助学习者理解本地 API、首 token、tokens/s、KV Cache 和服务稳定性,而不是追求大型集群部署。

边缘/端侧部署教程

资料类型适合借鉴课程化处理
ExecuTorch官方文档PyTorch 端侧部署路线作为移动端/嵌入式路线参考
TensorFlow Lite官方教程移动端和嵌入式部署用于传统端侧部署对比
Core ML Tools optimization官方文档Apple 设备模型优化作为 Apple 端侧路线补充
ONNX Runtime Mobile官方教程移动端 ONNX Runtime 部署用于跨平台 runtime 对比
NVIDIA TensorRT官方文档NVIDIA GPU 推理优化用于 Ubuntu/Jetson 加速路线
NVIDIA Jetson documentation官方文档Jetson 硬件和软件栈用于 Jetson 部署章节
Jetson AI Lab教程/示例Jetson AI 应用实践用于边缘 AI 案例参考

本课程会强调 Jetson,但不把课程限制为 Jetson。Jetson 是观察边缘约束的一条主路径。

Profiling 与 Benchmark 参考

资料类型适合借鉴课程化处理
MLPerf InferenceBenchmark标准化推理评估的指标和报告方式借鉴严谨性,不做竞赛级流程
NVIDIA Nsight Systems工具文档GPU/CPU 系统级 profiling作为高级 profiling 扩展
llama.cpp llama-bench工具文档LLM 本地 benchmark 记录作为课程可执行实验
ONNX Runtime performance官方文档runtime 性能优化和 profiling 思路用于传统模型 runtime 优化

Benchmark 资料的主要价值是“如何报告”,不是“复制别人的数字”。

VLM/Agent 参考

资料类型适合借鉴课程化处理
Hugging Face image-text-to-text task任务页VLM 输入输出和模型形态用于 VLM 组件拆解
Transformers documentation官方文档多模态模型、processor、generation用于 VLM 生态入门
OpenAI Function Calling guide官方文档工具调用 schema 和边界用于 Agent 权限和工具设计
OpenAI Agents SDK documentation官方文档Agent、tool、handoff、guardrail 概念作为系统架构参考

VLM/Agent 资料更新很快,所以课程只吸收稳定的系统概念:组件拆解、权限边界、端云协同和失败恢复。

本课程如何吸收这些资料

本课程章节建议吸收来源扩写方向
前置知识Hugging Face LLM Course、ML Systems Book增加 tokenizer、生成、系统指标和部署可靠性基础
端侧部署框架ML Systems Book、EfficientML、Jetson docs增加决策矩阵、端云协同和硬件路径选择
量化基础PyTorch、ONNX Runtime、TFLite、OpenVINO NNCF扩写 PTQ/QAT 流程、校准数据、误差分析
大模型量化Qwen、llama.cpp、GPTQ/AWQ/SmoothQuant扩写 GGUF、KV Cache、低比特格式和质量风险
推理框架ExecuTorch、TFLite、ONNX Runtime、TensorRT、MLC LLM增加框架选型矩阵和设备适配路线
推理加速vLLM、TensorRT-LLM、llama.cpp、MLPerf增加 prefill/decode、KV 管理、benchmark 和服务化
Jetson 实作Jetson docs、JetPack、Jetson AI Lab增加功耗、温度、共享内存和迁移风险
ProfilingMLPerf、Nsight Systems、llama-bench增加指标定义、实验设计和报告模板
VLM/AgentHF VLM、OpenAI tools/agents、ML Systems Book增加权限边界、端云协同和失败恢复

40+ 学时体量判断

对照这些公开课程,本课程做成 40 学时是合理的,但必须控制边界。

模块建议学时体量判断
前置知识6-8足够建立共同语言,不足以完整讲 LLM 训练
端侧部署框架4-6足够讲决策矩阵和端云协同
量化压缩10-12可覆盖 PTQ/QAT、LLM 量化、压缩蒸馏
推理加速6-8可覆盖 runtime、KV、GPU offload、服务化基础
Ubuntu/Jetson 实作8-10足够完成 Qwen baseline、量化对比和 Jetson 迁移
案例复盘4-6足够完成项目报告和答辩

如果课程要做成 52 学时,可以增加:

  • 更多论文精读。
  • Jetson 现场实验时间。
  • VLM/Agent 小项目。
  • TensorRT 或 ONNX Runtime 视觉模型实作。
  • 学生项目中期评审。

如果压缩到 40 学时,应保留 Qwen/llama.cpp/Jetson/profiling 主线,减少论文证明和多 runtime API 展开。

使用边界

  • 不直接复制任何课程内容或图表,只吸收结构、概念组织和实验设计思路。
  • 论文和官方文档用于定义概念,课程本身仍围绕 Ubuntu/Qwen/Jetson 实作展开。
  • 如果后续需要完整教材式正文,每章应从本页选 3 到 6 个核心来源深入消化,再写成本课程自己的讲义。
  • 不把任何外部 benchmark 数字写成本课程实验结论。
  • 不把某个厂商的部署路径当成端侧部署唯一答案。