核心内容
端侧部署问题框架
- 端侧推理重新受到重视,来自隐私、延迟、弱网、成本和个性化体验等约束。
- 典型场景包括手机、PC、车载、IoT、工业终端、摄像头和机器人。
- 评价维度包括精度、端到端延迟、首 token 延迟、内存峰值、KV Cache、功耗、发热和维护成本。
Edge AI Deployment Course
从问题框架、量化方法、精度修复到真实设备部署链路
09:00-09:30
授课目标
帮助学员建立端侧模型部署的整体判断框架,理解端侧 AI 落地需要同时处理模型能力、设备资源、运行时框架、功耗散热、网络环境和产品体验之间的平衡。
核心内容
Takeaways
09:30-10:30
授课目标
帮助学员掌握模型量化的基本概念、误差来源和常见工程流程,理解权重量化、激活量化、KV Cache 量化和 weight-only / weight-activation quantization 的差异。
核心内容
Takeaways
10:45-12:00
授课目标
帮助学员理解 LLM 和 VLM 为什么需要区别于传统 INT8 PTQ/QAT 的大模型量化方法,掌握 GPTQ、AWQ、SmoothQuant、LLM.int8() 和 KV Cache 量化的基本思想。
核心内容
Takeaways
13:30-14:25
授课目标
帮助学员掌握量化后精度下降的系统排查方法,能够从 baseline、数据预处理、模型导出、runtime 实现、校准数据、敏感层、outlier 和评估指标等角度定位问题。
核心内容
Takeaways
14:25-15:10
授课目标
帮助学员把视角从量化扩展到完整模型压缩体系,理解剪枝、低秩分解、参数共享、知识蒸馏、小模型训练和架构重设计如何共同服务于端侧部署。
核心内容
Takeaways
15:25-16:10
授课目标
帮助学员理解模型从训练环境走向端侧设备的完整部署链路,掌握推理框架选型的核心维度。
核心内容
Takeaways
16:10-16:45
授课目标
帮助学员理解 VLM 与 Agent 的端侧部署已经从单模型优化扩展到系统架构优化,区分 VLM 的感知理解链路和 Agent 的规划执行链路。
核心内容
Takeaways
16:45-17:00
授课目标
通过典型案例把全天内容串联起来,帮助学员把量化算法、精度修复、压缩蒸馏、推理框架选型和 VLM/Agent 部署形态整合为完整工程判断。
核心内容
Takeaways
Wrap-up
端侧模型部署的最终判断,不是某个量化方法是否先进,而是模型在真实设备、真实 runtime、真实任务和真实产品约束下是否稳定可用。