跳到主要内容

参考资料地图

建议学时

2 学时。

本页既是学习者的阅读导航,也是课程后续扩写时的资料池。课堂上不要求一次读完所有资料,而是训练学习者知道“遇到某类问题应该查哪一类来源”。

学习目标

  • 建立课程后续扩写的资料来源池。
  • 区分基础论文、量化方法、runtime 框架、端侧部署、Jetson、VLM/Agent 和 profiling 工具。
  • 优先阅读官方文档和一手论文,避免只依赖二手博客。
  • 能根据项目问题选择 3 到 6 个核心来源,而不是堆砌链接。
  • 能在最终报告中说明资料如何影响技术取舍。

资料怎么用

本页不是“参考链接仓库”。它的用途是把课程书扩写和项目实践需要的材料分层。

建议使用方式:

  1. 先用课程章节建立问题框架。
  2. 再从本页选择对应资料。
  3. 只读和当前问题有关的章节或论文部分。
  4. 把资料中的方法、指标或实验设计转化为自己的表格。
  5. 不复制原文,不复制图表,不把资料结论直接套到自己的硬件上。

如果要参考完整课程或在线教材,优先看:类似教材与教程参考

如果要理解为什么本课程这样取舍,优先看:资料对比与课程取舍

资料地图

阅读优先级

资料很多,建议按课程阶段分层阅读。

阶段必读选读
入门Hugging Face LLM Course、ML Systems Book 相关章节Attention 论文
量化PyTorch/ONNX Runtime/TFLite 量化文档GPTQ/AWQ/SmoothQuant/LLM.int8 论文
LLM 实作Qwen llama.cpp、llama.cpp 文档Transformers quantization
推理加速TensorRT、TensorRT-LLM、vLLM、MLC LLM 概览Nsight、MLPerf
JetsonJetson docs、JetPack、Jetson AI LabTensorRT 示例
VLM/AgentTransformers 多模态任务、函数调用/工具调用文档Agent 框架文档

课程讲义应该把资料“消化”成教学结构,而不是让学生在链接中迷路。

基础与 LLM

资料用途课程吸收方式
Attention Is All You NeedTransformer 基础只保留 attention、sequence length、计算/内存直觉
Hugging Face Transformers documentation模型、tokenizer、生成、chat template用作 tokenizer、生成参数、模型加载的术语来源
Hugging Face LLM CourseLLM 基础课程借鉴入门顺序,但不展开训练主线
Transformers chat templatesInstruct 模型部署常见问题用于解释本地模型对话格式错误
Transformers KV cacheKV Cache 概念和生成优化用于上下文长度、prefill/decode、内存实验
vLLM PagedAttention paperKV Cache 管理和服务化推理系统作为服务化推理的扩展阅读
The Machine Learning Systems BookML 系统、部署、性能和可靠性用于建立系统指标和工程复盘视角

量化方法

资料用途课程吸收方式
PyTorch QuantizationPTQ/QAT 基础概念解释 eager/graph、校准、量化感知训练
torchao documentationPyTorch 新量化/低比特生态作为 PyTorch 低比特路线补充
ONNX Runtime QuantizationONNX PTQ、校准、静态/动态量化构建传统模型 PTQ 流程图
TensorFlow Lite Model Optimization移动端模型优化对比移动端 PTQ/QAT 和端侧约束
OpenVINO Model Optimization GuideIntel/OpenVINO 优化路径对比厂商 runtime 的量化流程
GPTQ paper大模型 weight-only PTQ解释二阶近似和逐层量化动机
AWQ paperActivation-aware weight quantization解释 activation-aware 和保护重要权重
SmoothQuant paperW8A8 和 activation outlier 平滑解释 outlier 从 activation 迁移到 weight 的思路
LLM.int8 paperoutlier-aware 8-bit LLM 推理解释 outlier channel 对 LLM 量化的影响
Hugging Face Transformers quantizationTransformers 生态中的量化入口作为工具生态地图,不作为 API 手册逐条讲

压缩与蒸馏

资料用途课程吸收方式
EfficientML.ai高效模型、剪枝、量化、TinyML借鉴压缩方法分类和硬件感知视角
MIT 6.5940 TinyML and Efficient Deep Learning Computing体系化高效深度学习课程借鉴课程组织,不展开硬件电路细节
Distilling the Knowledge in a Neural Network知识蒸馏基础用于解释 teacher/student 思路
DistilBERT paperTransformer 蒸馏案例作为 NLP 蒸馏代表案例

压缩与蒸馏在本课程中作为端侧部署的“模型侧改造”模块,不把训练细节变成主线。

Runtime 与端侧部署

资料用途课程吸收方式
llama.cppGGUF、本地 LLM、CPU/GPU 推理、server课程 LLM 实作主线
Qwen llama.cpp 本地运行Qwen 小模型本地实作Ubuntu/Qwen baseline 的主要参考
Qwen llama.cpp 量化Qwen GGUF 量化路线Q8/Q5/Q4 对比实验参考
TensorRT documentationNVIDIA 推理优化解释 graph、kernel、precision 和 engine
TensorRT-LLM documentationNVIDIA LLM 推理优化作为 LLM 高性能推理扩展
ONNX Runtime跨平台推理 runtime传统模型和跨平台部署路线
ExecuTorch documentationPyTorch 端侧部署移动端和嵌入式 PyTorch 路线
TensorFlow Lite移动端/嵌入式部署传统移动端部署路线
Core ML Tools optimizationApple 设备优化Apple 端侧路线扩展
MLC LLM跨平台 LLM 部署跨平台编译和移动端 LLM 扩展

推理加速与服务化

资料用途课程吸收方式
vLLM DocumentationLLM serving、PagedAttention、KV Cache 管理解释服务化推理和 KV 管理,不作为主实验框架
TensorRT-LLM documentationNVIDIA LLM 推理优化说明高性能 GPU 路线和课程主线差异
llama.cpp server本地 OpenAI-compatible API课程服务化实验入口
OpenAI API referenceAPI 形态参考用于理解 OpenAI-compatible 本地服务接口

推理加速资料要服务于“瓶颈定位”:prefill、decode、KV Cache、batch、kernel、memory bandwidth、GPU offload 和服务化。

Ubuntu Server 与 NVIDIA GPU

资料用途课程吸收方式
Ubuntu Server NVIDIA driver guideUbuntu 安装 NVIDIA 驱动Ubuntu 实验环境参考
NVIDIA CUDA Installation Guide for LinuxCUDA Linux 安装解释 driver/CUDA/runtime 匹配
NVIDIA Container Toolkit Install Guide容器访问 GPU作为后续部署扩展
NVIDIA Nsight Systems系统级 profiling作为 GPU profiling 扩展

Jetson 与边缘硬件

资料用途课程吸收方式
NVIDIA Jetson documentationJetson 官方文档Jetson 软件栈和设备概念
NVIDIA JetPack SDKJetPack、CUDA、TensorRTJetson 环境链路
Jetson AI LabJetson AI 实作示例借鉴边缘 AI demo 和部署方式
TensorRT documentationJetson 上的 NVIDIA runtime视觉模型和加速路线

Jetson 资料在课程中主要用于强调功耗、温度、共享内存、迁移和稳定性,而不是型号百科。

VLM 与 Agent

资料用途课程吸收方式
Hugging Face image-text-to-text taskVLM 任务入口解释 VLM 输入输出和模型形态
Hugging Face Transformers documentation多模态模型生态查模型加载和 processor 概念
OpenAI Function Calling guide工具调用接口思想借鉴工具 schema 和调用边界
OpenAI Agents SDK documentationAgent 结构参考借鉴 agent、tool、handoff、guardrail 概念
The Machine Learning Systems Book系统可靠性和部署视角用于 Agent 系统复盘

本课程的 VLM/Agent 部分以架构判断为主,不把完整框架开发作为主线。

Profiling 与评估

资料用途课程吸收方式
llama.cpp llama-benchLLM 本地 benchmark课程推理加速实验
NVIDIA Nsight SystemsGPU/系统级 profiling扩展分析工具
MLPerf Inference标准化推理 benchmark 思路借鉴指标定义和报告严谨性
ONNX Runtime performanceONNX Runtime 性能优化传统模型 runtime 优化参考

课程不追求 MLPerf 竞赛级流程,但吸收它“指标明确、条件明确、结果可复现”的报告习惯。

资料到章节的映射

课程章节主要资料使用方式
前置知识Hugging Face LLM Course、Transformers docs、ML Systems Book建立 tokenizer、生成、KV Cache 和系统指标
端侧部署框架ML Systems Book、EfficientML、Jetson docs建立决策矩阵和端云协同图
量化基础PyTorch、ONNX Runtime、TFLite、OpenVINO组织 PTQ/QAT 和校准流程
LLM 量化GPTQ、AWQ、SmoothQuant、LLM.int8、Qwen组织方法对比和实验假设
推理加速TensorRT、vLLM、TensorRT-LLM、llama.cpp解释 prefill/decode、KV、kernel、runtime
Ubuntu 实作Ubuntu、CUDA、Qwen、llama.cpp建立可运行 baseline
Jetson 实作Jetson docs、JetPack、Jetson AI Lab迁移验证和边缘约束记录
VLM/AgentHF VLM、OpenAI tool/agents docs、ML Systems Book系统设计和权限边界
案例复盘MLPerf、Nsight、llama-bench建立最终报告模板

学生阅读任务模板

## 阅读资料

- 链接:
- 资料类型:论文 / 官方文档 / 课程 / 工具文档
- 对应课程章节:

## 读到的关键点

1. 待填
2. 待填
3. 待填

## 可以吸收到本项目的内容

| 内容 | 如何使用 | 风险 |
| --- | --- | --- |
| 待填 | 待填 | 待填 |

## 不适合直接采用的内容

- 待填:

## 对实验设计的影响

- 新增指标:
- 新增对比:
- 新增失败样例:

后续扩写建议

  • 量化基础章节吸收 PyTorch、ONNX Runtime、TFLite 文档,补完整 PTQ/QAT 流程。
  • 大模型量化章节吸收 GPTQ、AWQ、SmoothQuant、LLM.int8 和 Transformers quantization 文档,补方法对比。
  • Runtime 章节吸收 llama.cpp、TensorRT、TensorRT-LLM、ExecuTorch、MLC LLM,补框架选型表。
  • Profiling 章节吸收 llama-bench、Nsight Systems、MLPerf,补实验方法和记录规范。
  • Jetson 章节吸收 Jetson docs、JetPack 和 Jetson AI Lab,补功耗、温度和边缘设备约束。
  • VLM/Agent 章节吸收多模态任务文档和工具调用文档,补端云协同和权限边界。

使用边界

  • 不复制资料正文、图表或课程作业。
  • 不把论文 benchmark 当成本课程实验结果。
  • 不把官方文档改写成 API 手册。
  • 不引用未验证的性能数字。
  • 不把单一厂商路线写成唯一正确路线。