Edge AI Deployment Course

端侧模型量化部署技术专题

从问题框架、量化方法、精度修复到真实设备部署链路

8 个专题 全天课程 HTML slides

课程路径

  1. 01端侧部署问题框架09:00-09:30
  2. 02量化基础与 PTQ/QAT09:30-10:30
  3. 03大模型量化方法10:45-12:00
  4. 04量化精度修复13:30-14:25
  5. 05压缩与蒸馏14:25-15:10
  6. 06推理框架与部署链路15:25-16:10
  7. 07VLM 与 Agent 端侧形态16:10-16:45
  8. 08案例串联与 Q&A16:45-17:00
01

专题一 端侧部署问题框架

09:00-09:30

授课目标

专题一 端侧部署问题框架

帮助学员建立端侧模型部署的整体判断框架,理解端侧 AI 落地需要同时处理模型能力、设备资源、运行时框架、功耗散热、网络环境和产品体验之间的平衡。

核心内容

端侧部署问题框架

  • 端侧推理重新受到重视,来自隐私、延迟、弱网、成本和个性化体验等约束。
  • 典型场景包括手机、PC、车载、IoT、工业终端、摄像头和机器人。
  • 评价维度包括精度、端到端延迟、首 token 延迟、内存峰值、KV Cache、功耗、发热和维护成本。

Takeaways

这一节要带走什么

端侧部署不是把云端模型直接搬到设备上运行。
量化、压缩、蒸馏和 runtime 选型都服务于业务可用目标。
判断部署成败要同时看精度、延迟、内存、功耗和维护成本。
02

专题二 量化基础与 PTQ/QAT

09:30-10:30

授课目标

专题二 量化基础与 PTQ/QAT

帮助学员掌握模型量化的基本概念、误差来源和常见工程流程,理解权重量化、激活量化、KV Cache 量化和 weight-only / weight-activation quantization 的差异。

核心内容

量化基础与 PTQ/QAT

  • 用更低精度表示权重、激活或推理缓存,降低存储、内存带宽和计算压力。
  • 比较 FP32、FP16、BF16、INT8、INT4、NF4、FP8 等格式。
  • PTQ 适合快速验证,QAT 更稳但需要训练数据、训练资源和工程投入。

Takeaways

这一节要带走什么

不同数值格式和量化粒度会改变精度与性能平衡。
PTQ 优先服务快速验证,QAT 适合更高精度风险场景。
路线选择要看项目阶段、数据条件、训练资源和精度要求。
03

专题三 大模型量化方法

10:45-12:00

授课目标

专题三 大模型量化方法

帮助学员理解 LLM 和 VLM 为什么需要区别于传统 INT8 PTQ/QAT 的大模型量化方法,掌握 GPTQ、AWQ、SmoothQuant、LLM.int8() 和 KV Cache 量化的基本思想。

核心内容

大模型量化方法

  • LLM 和 VLM 参数规模大,完整重新训练成本高,Transformer 存在 outlier、层敏感和长上下文 KV Cache 增长问题。
  • VLM 还涉及 vision encoder、projector 和多模态对齐链路。
  • GPTQ、AWQ、SmoothQuant、LLM.int8() 和 KV Cache 量化需要结合模型结构、校准样本和推理框架理解。

Takeaways

这一节要带走什么

大模型量化不是单纯降低 bit-width。
低比特策略要同时考虑 outlier、层敏感、上下文长度和框架支持。
VLM 量化要单独评估视觉编码器、多模态投影和对齐链路。
04

专题四 量化精度修复

13:30-14:25

授课目标

专题四 量化精度修复

帮助学员掌握量化后精度下降的系统排查方法,能够从 baseline、数据预处理、模型导出、runtime 实现、校准数据、敏感层、outlier 和评估指标等角度定位问题。

核心内容

量化精度修复

  • 精度下降可能表现为指标下降、生成质量变差、格式错误增多、VLM 细粒度识别退化或 Agent 规划不稳定。
  • 问题可能来自 baseline、预处理后处理、模型导出、runtime 行为或评估指标。
  • 修复手段包括校准集重构、敏感性分析、逐层回退、mixed precision、clipping、outlier 处理、QAT、LoRA、Adapter 或蒸馏。

Takeaways

这一节要带走什么

精度下降不一定来自量化算法本身。
先确认问题,再定位原因,最后选择修复手段。
所有修复都要回到目标设备重新 profiling。
05

专题五 压缩与蒸馏

14:25-15:10

授课目标

专题五 压缩与蒸馏

帮助学员把视角从量化扩展到完整模型压缩体系,理解剪枝、低秩分解、参数共享、知识蒸馏、小模型训练和架构重设计如何共同服务于端侧部署。

核心内容

压缩与蒸馏

  • 比较量化、剪枝、低秩分解、参数共享、知识蒸馏和架构重设计。
  • 非结构化剪枝理论压缩率高,但未必带来真实端侧加速。
  • 蒸馏既可以迁移大模型能力,也可以修复量化后的能力下降。

Takeaways

这一节要带走什么

非结构化剪枝未必带来真实端侧加速。
蒸馏可以用于能力迁移,也可以用于量化后补偿。
有时选择更端侧友好的模型,比压缩不合适的模型更有效。
06

专题六 推理框架与部署链路

15:25-16:10

授课目标

专题六 推理框架与部署链路

帮助学员理解模型从训练环境走向端侧设备的完整部署链路,掌握推理框架选型的核心维度。

核心内容

推理框架与部署链路

  • 部署链路包括模型导出、图优化、算子融合、layout 转换、量化转换、runtime 加载、kernel 选择和目标设备 profiling。
  • 常见框架包括 ONNX Runtime、TensorRT、TFLite、NCNN、MNN、Core ML、llama.cpp、ExecuTorch 和厂商 NPU SDK。
  • unsupported op、量化算子缺失、dynamic shape 和 CPU fallback 都可能抵消量化收益。

Takeaways

这一节要带走什么

量化能否真正提速取决于目标设备、runtime、kernel 和 fallback 行为。
部署链路要覆盖导出、图优化、量化转换、加载和 profiling。
profiling 必须覆盖延迟、tokens/s、内存、功耗和 fallback log。
07

专题七 VLM 与 Agent 端侧形态

16:10-16:45

授课目标

专题七 VLM 与 Agent 端侧形态

帮助学员理解 VLM 与 Agent 的端侧部署已经从单模型优化扩展到系统架构优化,区分 VLM 的感知理解链路和 Agent 的规划执行链路。

核心内容

VLM 与 Agent 端侧形态

  • VLM 链路包括图像预处理、vision encoder、projector、LLM、tokenizer、多轮上下文和输出后处理。
  • Agent 更关注 planner、tool registry、executor、memory、permission manager、safety policy 和交互循环。
  • 端云协同让简单和隐私任务在端侧完成,让复杂 reasoning 和兜底能力交给云端。

Takeaways

这一节要带走什么

VLM 的瓶颈不只在 LLM。
Agent 的关键问题还包括工具链稳定性、权限边界、状态维护和失败恢复。
端云协同要按任务复杂度、隐私和兜底能力做 routing。
08

专题八 案例串联与 Q&A

16:45-17:00

授课目标

专题八 案例串联与 Q&A

通过典型案例把全天内容串联起来,帮助学员把量化算法、精度修复、压缩蒸馏、推理框架选型和 VLM/Agent 部署形态整合为完整工程判断。

核心内容

案例串联与 Q&A

  • 传统视觉模型案例关注 INT8 PTQ/QAT、结构化剪枝、TFLite/NCNN/MNN 和真实设备延迟。
  • 小型 LLM 案例关注 AWQ/GPTQ、INT4、group size、KV Cache、first token latency、tokens/s 和本地 runtime。
  • VLM 与 Hybrid Agent 案例关注系统级部署、工具权限、任务 routing、状态管理和失败恢复。

Takeaways

这一节要带走什么

案例复盘要覆盖目标定义、baseline、量化压缩、框架适配、profiling 到上线验证。
不同模型形态的优化路径不同,不能用同一套指标粗暴套用。
产品级系统设计需要同时处理模型、权限、routing、状态和失败恢复。

Wrap-up

把单点优化放回部署系统

端侧模型部署的最终判断,不是某个量化方法是否先进,而是模型在真实设备、真实 runtime、真实任务和真实产品约束下是否稳定可用。