参考资料地图
建议学时
2 学时。
本页既是学习者的阅读导航,也是课程后续扩写时的资料池。课堂上不要求一次读完所有资料,而是训练学习者知道“遇到某类问题应该查哪一类来源”。
学习目标
- 建立课程后续扩写的资料来源池。
- 区分基础论文、量化方法、runtime 框架、端侧部署、Jetson、VLM/Agent 和 profiling 工具。
- 优先阅读官方文档和一手论文,避免只依赖二手博客。
- 能根据项目问题选择 3 到 6 个核心来源,而不是堆砌链接。
- 能在最终报告中说明资料如何影响技术取舍。
资料怎么用
本页不是“参考链接仓库”。它的用途是把课程书扩写和项目实践需要的材料分层。
建议使用方式:
- 先用课程章节建立问题框架。
- 再从本页选择对应资料。
- 只读和当前问题有关的章节或论文部分。
- 把资料中的方法、指标或实验设计转化为自己的表格。
- 不复制原文,不复制图表,不把资料结论直接套到自己的硬件上。
如果要参考完整课程或在线教材,优先看:类似教材与教程参考。
如果要理解为什么本课程这样取舍,优先看:资料对比与课程取舍。
资料地图
阅读优先级
资料很多,建议按课程阶段分层阅读。
| 阶段 | 必读 | 选读 |
|---|---|---|
| 入门 | Hugging Face LLM Course、ML Systems Book 相关章节 | Attention 论文 |
| 量化 | PyTorch/ONNX Runtime/TFLite 量化文档 | GPTQ/AWQ/SmoothQuant/LLM.int8 论文 |
| LLM 实作 | Qwen llama.cpp、llama.cpp 文档 | Transformers quantization |
| 推理加速 | TensorRT、TensorRT-LLM、vLLM、MLC LLM 概览 | Nsight、MLPerf |
| Jetson | Jetson docs、JetPack、Jetson AI Lab | TensorRT 示例 |
| VLM/Agent | Transformers 多模态任务、函数调用/工具调用文档 | Agent 框架文档 |
课程讲义应该把资料“消化”成教学结构,而不是让学生在链接中迷路。
基础与 LLM
| 资料 | 用途 | 课程吸收方式 |
|---|---|---|
| Attention Is All You Need | Transformer 基础 | 只保留 attention、sequence length、计算/内存直觉 |
| Hugging Face Transformers documentation | 模型、tokenizer、生成、chat template | 用作 tokenizer、生成参数、模型加载的术语来源 |
| Hugging Face LLM Course | LLM 基础课程 | 借鉴入门顺序,但不展开训练主线 |
| Transformers chat templates | Instruct 模型部署常见问题 | 用于解释本地模型对话格式错误 |
| Transformers KV cache | KV Cache 概念和生成优化 | 用于上下文长度、prefill/decode、内存实验 |
| vLLM PagedAttention paper | KV Cache 管理和服务化推理系统 | 作为服务化推理的扩展阅读 |
| The Machine Learning Systems Book | ML 系统、部署、性能和可靠性 | 用于建立系统指标和工程复盘视角 |
量化方法
| 资料 | 用途 | 课程吸收方式 |
|---|---|---|
| PyTorch Quantization | PTQ/QAT 基础概念 | 解释 eager/graph、校准、量化感知训练 |
| torchao documentation | PyTorch 新量化/低比特生态 | 作为 PyTorch 低比特路线补充 |
| ONNX Runtime Quantization | ONNX PTQ、校准、静态/动态量化 | 构建传统模型 PTQ 流程图 |
| TensorFlow Lite Model Optimization | 移动端模型优化 | 对比移动端 PTQ/QAT 和端侧约束 |
| OpenVINO Model Optimization Guide | Intel/OpenVINO 优化路径 | 对比厂商 runtime 的量化流程 |
| GPTQ paper | 大模型 weight-only PTQ | 解释二阶近似和逐层量化动机 |
| AWQ paper | Activation-aware weight quantization | 解释 activation-aware 和保护重要权重 |
| SmoothQuant paper | W8A8 和 activation outlier 平滑 | 解释 outlier 从 activation 迁移到 weight 的思路 |
| LLM.int8 paper | outlier-aware 8-bit LLM 推理 | 解释 outlier channel 对 LLM 量化的影响 |
| Hugging Face Transformers quantization | Transformers 生态中的量化入口 | 作为工具生态地图,不作为 API 手册逐条讲 |
压缩与蒸馏
| 资料 | 用途 | 课程吸收方式 |
|---|---|---|
| EfficientML.ai | 高效模型、剪枝、量化、TinyML | 借鉴压缩方法分类和硬件感知视角 |
| MIT 6.5940 TinyML and Efficient Deep Learning Computing | 体系化高效深度学习课程 | 借鉴课程组织,不展开硬件电路细节 |
| Distilling the Knowledge in a Neural Network | 知识蒸馏基础 | 用于解释 teacher/student 思路 |
| DistilBERT paper | Transformer 蒸馏案例 | 作为 NLP 蒸馏代表案例 |
压缩与蒸馏在本课程中作为端侧部署的“模型侧改造”模块,不把训练细节变成主线。
Runtime 与端侧部署
| 资料 | 用途 | 课程吸收方式 |
|---|---|---|
| llama.cpp | GGUF、本地 LLM、CPU/GPU 推理、server | 课程 LLM 实作主线 |
| Qwen llama.cpp 本地运行 | Qwen 小模型本地实作 | Ubuntu/Qwen baseline 的主要参考 |
| Qwen llama.cpp 量化 | Qwen GGUF 量化路线 | Q8/Q5/Q4 对比实验参考 |
| TensorRT documentation | NVIDIA 推理优化 | 解释 graph、kernel、precision 和 engine |
| TensorRT-LLM documentation | NVIDIA LLM 推理优化 | 作为 LLM 高性能推理扩展 |
| ONNX Runtime | 跨平台推理 runtime | 传统模型和跨平台部署路线 |
| ExecuTorch documentation | PyTorch 端侧部署 | 移动端和嵌入式 PyTorch 路线 |
| TensorFlow Lite | 移动端/嵌入式部署 | 传统移动端部署路线 |
| Core ML Tools optimization | Apple 设备优化 | Apple 端侧路线扩展 |
| MLC LLM | 跨平台 LLM 部署 | 跨平台编译和移动端 LLM 扩展 |
推理加速与服务化
| 资料 | 用途 | 课程吸收方式 |
|---|---|---|
| vLLM Documentation | LLM serving、PagedAttention、KV Cache 管理 | 解释服务化推理和 KV 管理,不作为主实验框架 |
| TensorRT-LLM documentation | NVIDIA LLM 推理优化 | 说明高性能 GPU 路线和课程主线差异 |
| llama.cpp server | 本地 OpenAI-compatible API | 课程服务化实验入口 |
| OpenAI API reference | API 形态参考 | 用于理解 OpenAI-compatible 本地服务接口 |
推理加速资料要服务于“瓶颈定位”:prefill、decode、KV Cache、batch、kernel、memory bandwidth、GPU offload 和服务化。
Ubuntu Server 与 NVIDIA GPU
| 资料 | 用途 | 课程吸收方式 |
|---|---|---|
| Ubuntu Server NVIDIA driver guide | Ubuntu 安装 NVIDIA 驱动 | Ubuntu 实验环境参考 |
| NVIDIA CUDA Installation Guide for Linux | CUDA Linux 安装 | 解释 driver/CUDA/runtime 匹配 |
| NVIDIA Container Toolkit Install Guide | 容器访问 GPU | 作为后续部署扩展 |
| NVIDIA Nsight Systems | 系统级 profiling | 作为 GPU profiling 扩展 |
Jetson 与边缘硬件
| 资料 | 用途 | 课程吸收方式 |
|---|---|---|
| NVIDIA Jetson documentation | Jetson 官方文档 | Jetson 软件栈和设备概念 |
| NVIDIA JetPack SDK | JetPack、CUDA、TensorRT | Jetson 环境链路 |
| Jetson AI Lab | Jetson AI 实作示例 | 借鉴边缘 AI demo 和部署方式 |
| TensorRT documentation | Jetson 上的 NVIDIA runtime | 视觉模型和加速路线 |
Jetson 资料在课程中主要用于强调功耗、温度、共享内存、迁移和稳定性,而不是型号百科。
VLM 与 Agent
| 资料 | 用途 | 课程吸收方式 |
|---|---|---|
| Hugging Face image-text-to-text task | VLM 任务入口 | 解释 VLM 输入输出和模型形态 |
| Hugging Face Transformers documentation | 多模态模型生态 | 查模型加载和 processor 概念 |
| OpenAI Function Calling guide | 工具调用接口思想 | 借鉴工具 schema 和调用边界 |
| OpenAI Agents SDK documentation | Agent 结构参考 | 借鉴 agent、tool、handoff、guardrail 概念 |
| The Machine Learning Systems Book | 系统可靠性和部署视角 | 用于 Agent 系统复盘 |
本课程的 VLM/Agent 部分以架构判断为主,不把完整框架开发作为主线。
Profiling 与评估
| 资料 | 用途 | 课程吸收方式 |
|---|---|---|
| llama.cpp llama-bench | LLM 本地 benchmark | 课程推理加速实验 |
| NVIDIA Nsight Systems | GPU/系统级 profiling | 扩展分析工具 |
| MLPerf Inference | 标准化推理 benchmark 思路 | 借鉴指标定义和报告严谨性 |
| ONNX Runtime performance | ONNX Runtime 性能优化 | 传统模型 runtime 优化参考 |
课程不追求 MLPerf 竞赛级流程,但吸收它“指标明确、条件明确、结果可复现”的报告习惯。
资料到章节的映射
| 课程章节 | 主要资料 | 使用方式 |
|---|---|---|
| 前置知识 | Hugging Face LLM Course、Transformers docs、ML Systems Book | 建立 tokenizer、生成、KV Cache 和系统指标 |
| 端侧部署框架 | ML Systems Book、EfficientML、Jetson docs | 建立决策矩阵和端云协同图 |
| 量化基础 | PyTorch、ONNX Runtime、TFLite、OpenVINO | 组织 PTQ/QAT 和校准流程 |
| LLM 量化 | GPTQ、AWQ、SmoothQuant、LLM.int8、Qwen | 组织方法对比和实验假设 |
| 推理加速 | TensorRT、vLLM、TensorRT-LLM、llama.cpp | 解释 prefill/decode、KV、kernel、runtime |
| Ubuntu 实作 | Ubuntu、CUDA、Qwen、llama.cpp | 建立可运行 baseline |
| Jetson 实作 | Jetson docs、JetPack、Jetson AI Lab | 迁移验证和边缘约束记录 |
| VLM/Agent | HF VLM、OpenAI tool/agents docs、ML Systems Book | 系统设计和权限边界 |
| 案例复盘 | MLPerf、Nsight、llama-bench | 建立最终报告模板 |
学生阅读任务模板
## 阅读资料
- 链接:
- 资料类型:论文 / 官方文档 / 课程 / 工具文档
- 对应课程章节:
## 读到的关键点
1. 待填
2. 待填
3. 待填
## 可以吸收到本项目的内容
| 内容 | 如何使用 | 风险 |
| --- | --- | --- |
| 待填 | 待填 | 待填 |
## 不适合直接采用的内容
- 待填:
## 对实验设计的影响
- 新增指标:
- 新增对比:
- 新增失败样例:
后续扩写建议
- 量化基础章节吸收 PyTorch、ONNX Runtime、TFLite 文档,补完整 PTQ/QAT 流程。
- 大模型量化章节吸收 GPTQ、AWQ、SmoothQuant、LLM.int8 和 Transformers quantization 文档,补方法对比。
- Runtime 章节吸收 llama.cpp、TensorRT、TensorRT-LLM、ExecuTorch、MLC LLM,补框架选型表。
- Profiling 章节吸收 llama-bench、Nsight Systems、MLPerf,补实验方法和记录规范。
- Jetson 章节吸收 Jetson docs、JetPack 和 Jetson AI Lab,补功耗、温度和边缘设备约束。
- VLM/Agent 章节吸收多模态任务文档和工具调用文档,补端云协同和权限边界。
使用边界
- 不复制资料正文、图表或课程作业。
- 不把论文 benchmark 当成本课程实验结果。
- 不把官方文档改写成 API 手册。
- 不引用未验证的性能数字。
- 不把单一厂商路线写成唯一正确路线。