跳到主要内容

端侧模型量化部署技术专题

这本课程书面向需要把 AI 模型落到手机、PC、车载、IoT、工业终端、摄像头、机器人或本地服务器的技术团队。课程不把量化当成孤立算法,而是把模型能力、目标设备、runtime、低比特 kernel、上下文长度、功耗散热和产品体验放在同一个工程目标下分析。

本课程书按 40+ 学时正式课程设计,完整版本为 52 学时,可以裁剪为 40 学时基础版。内容保留原始八个专题的知识骨架,但会扩展成更细的在线 book:每章都包含图示、核心概念、代码或命令示例、配套实作、验收标准和参考资料。HTML 课件用于讲授演示,PPTX 输出留作后续交付。

学完后应能做到

  • 用统一的部署判断框架拆解端侧项目,而不是只问“模型能不能量化”。
  • 解释 PTQ、QAT、GPTQ、AWQ、SmoothQuant、LLM.int8()、KV Cache 量化等方法的适用边界。
  • 基于 Ubuntu Server、NVIDIA GPU 和 Qwen 小模型完成本地推理、量化对比、profiling 和 API 服务验证。
  • 解释推理加速和量化压缩的关系,能够从图优化、kernel、内存、runtime 和硬件层定位性能瓶颈。
  • 将 Ubuntu Server 实作迁移到 NVIDIA Jetson,记录功耗、温度和稳定性差异。
  • 系统排查量化后的精度、延迟、内存和服务稳定性问题。
  • 把量化与剪枝、蒸馏、runtime 选型、VLM/Agent 系统架构放到同一个产品落地流程里比较。

课程书怎么读

建议按两条线阅读:

阅读线适合对象重点产出
概念线需要建立判断框架的工程负责人、算法工程师、产品技术负责人端侧部署决策图、量化方法选择、风险清单
实作线需要动手验证小模型部署的算法/推理工程师Ubuntu/Jetson 环境检查、Qwen GGUF 推理、量化对比、推理加速、profiling 表、API smoke test

课程书结构

本书按“导读 + Part I-VI”的 7 部分组织。

部分作用当前重点
导读课程定位、学时安排、资料取舍明确课程边界
Part I 前置知识推理、Transformer、量化数学、Linux/GPU/Jetson 工具链让学习者能读懂日志和实验
Part II 端侧部署框架场景、指标、硬件约束、端云协同建立工程判断
Part III 量化与压缩PTQ/QAT、LLM 量化、KV Cache、精度修复、蒸馏压缩建立方法选择能力
Part IV 推理加速与 Runtime图优化、kernel、TensorRT、llama.cpp、vLLM、profiling建立性能优化视角
Part V Ubuntu/Jetson 实作Qwen GGUF、量化对比、推理加速、API 服务把概念落到可运行命令
Part VI 案例复盘视觉、LLM、VLM、Agent、最终项目输出部署评估报告

每个主线章节都按相同模板组织:学习目标、问题背景、图示讲解、核心概念、代码/命令示例、配套实作、验收结果、常见问题和参考资料。这样做的目的,是让课程书既适合系统阅读,也适合作为实作手册查阅。

实作环境基线

本书的实作默认使用 Ubuntu Server、NVIDIA GPU、CUDA、llama.cpp 和 Qwen 小模型,并新增 NVIDIA Jetson 路径。所有命令都以“可复现教学”为目标,避免假设某个固定设备性能。实验表格会保留空位,由学员在自己的机器上记录真实结果。

课程书里的命令片段是教学骨架。正式跑实验前,应先按本书实作章节确认驱动、CUDA、模型许可证、磁盘空间和网络访问条件。

输出形态

  • 课程书:主交付物,图文并茂,包含代码和实作任务。
  • HTML 课件:使用 reveal.js 构建,服务于课堂投屏和在线演示。
  • PPTX:后续可由课程书和 HTML 课件继续生成,不作为当前版本范围。

学习产出

课程最终不以“看完章节”为完成标准,而以能交付一份部署评估报告为标准。学习者需要把方法选择、实验命令、性能记录、失败日志和部署建议整理成可以评审的材料。建议从第一部分开始就维护自己的实验记录,最后汇总到 最终项目与验收标准

参考资料