一日课件流程与页数规划
本页用于先确定一整天培训到底需要多少课件内容,再扩 HTML 课件。当前 47 页版本只能做总览,不足以支撑 09:00-17:00 的完整授课。
结论
课件体量应按 6 个主讲专题 x 每专题 40 页 = 240 页主课件 规划。
这里的 6 个主讲专题不是照搬课程网站的 Part I-VII,而是把网站内容压成一日培训能讲完的 6 个课堂单元:
| 6 个主讲专题 | 对应课程网站内容 | 建议页数 |
|---|---|---|
| 1. 端侧部署共同语言与环境准入 | 导读 + Part I + Part II | 40 |
| 2. Qwen/GGUF Baseline 与 PTQ/QAT 量化证据 | Part III + Part VI 实验入口 | 40 |
| 3. 低比特 LLM、KV Cache 与质量归因 | Part III + 样例日志 | 40 |
| 4. 精度修复、压缩蒸馏与 LoRA/QLoRA 决策 | Part III + Part IV | 40 |
| 5. Runtime、Profiling 与 Local API 验收 | Part V + Part VI | 40 |
| 6. Jetson/移动端迁移、VLM/Agent 与最终报告 | Part VI + Part VII | 40 |
| 合计 | 240 |
一页课件不等于一分钟。方法页、命令页、日志页和排障页会讲得久;过渡页、标题页和总结页会讲得快。40 页/专题的目的不是堆文字,而是给讲师足够的讲解抓手:概念、图解、表格、命令、日志、失败样例和报告字段都要有单独页面。
完成路径
当前方向不应该继续盲目加页。HTML 已经有 240 页主课件和 48 页扩展页,后续工作要把它改成真正可讲的一日课程。
推荐路径是 HTML 先成稿,再考虑导出 PPTX。现在先不要把精力放到 native PPT 或新模板上,否则会把还没定稿的内容返工一遍。
- 先锁住 6 个专题名称、240 页主线和最终报告证据链,不再扩页数、不重开大纲。
- 206-240 已按 5 页闭环收完;后续只在全局 QA 中修真实版面和节奏问题。
- 经典课程 PPT 只吸收讲法:图表类型、推导顺序、failure case 组织和课堂节奏;页面内容必须重写成我们自己的端侧 LLM / 小模型量化部署工程课。
- 每轮改完同步本表、浏览器检查实际页面、再跑 typecheck 和 build。没有通过检查,不进入下一段。
- 下一步做 001-240 全局 QA:专题标题、页脚来源、视觉密度、文字溢出、控制台错误、45 分钟节奏和最终报告落点。
- 241-288 已整理为扩展参考页:只支撑备课、备用解释和来源索引,不承担主讲内容。
- 最后才做交付形态:继续用 HTML 课件发布,或在内容稳定后导出/重制 PPTX。
当前最小可执行路径是从 001-240 全局 QA 继续,因为 6 个主讲专题已经成稿,剩下要确认它能连续放映和交付。
页数拆分原则
每个 45 分钟左右的专题至少要形成 8 个小闭环,每个闭环约 5 页:
问题框架 -> 核心概念 -> 证据图表 -> 课堂实作 -> 风险与报告
这就是每专题 40 页的来源。
| 页面类型 | 每专题建议数量 | 用途 |
|---|---|---|
| 专题开场/转场 | 3-4 | 说明这一段解决什么工程问题 |
| 概念解释 | 8-10 | 给术语、公式、方法边界 |
| 图解/矩阵 | 8-10 | 把课程网页里的 Mermaid、表格、流程重画为讲授页 |
| 实验/命令/日志 | 8-10 | 固定变量、命令、结果表、验收点 |
| failure case | 4-6 | 讲排障路径,不只展示成功 |
| 报告落点/Q&A | 4-6 | 说明结果进入最终报告哪一节 |
240 页主课件总结构
| 页码范围 | 主讲专题 | 课堂作用 |
|---|---|---|
| 001-040 | 端侧部署共同语言与环境准入 | 把场景、指标、token、prefill/decode、KV Cache、环境快照和最终报告放到同一条主线 |
| 041-080 | Qwen/GGUF Baseline 与 PTQ/QAT 量化证据 | 先让学员跑通 baseline,再把 PTQ/QAT、GGUF 量化和变量控制写成可复现实验 |
| 081-120 | 低比特 LLM、KV Cache 与质量归因 | 把 GGUF Q4/Q5、GPTQ、AWQ、SmoothQuant、KV Cache 和生成质量拆账记录 |
| 121-160 | 精度修复、压缩蒸馏与 LoRA/QLoRA 决策 | 讲质量下降怎么归因、修复,以及何时压缩、蒸馏、LoRA/QLoRA 或不训练 |
| 161-200 | Runtime、Profiling 与 Local API 验收 | 讲 runtime、fallback、profiling、bench、local API 和服务化报告证据 |
| 201-240 | Jetson/移动端迁移、VLM/Agent 与最终报告 | 从 Ubuntu 基线扩到 Jetson、移动端路线、VLM/Agent 和最终报告 |
当前 HTML 已经扩成 240 页主课件 + 48 页扩展参考页,下一步重点不是继续加页,而是按上面的专题边界重排讲授节奏。
专题一:端侧部署共同语言与环境准入,001-040
| 页码 | 小闭环 | 具体内容 | 主要来源 |
|---|---|---|---|
| 001-005 | 开场定位与专题地图 | 课程不是普通 Edge AI 入门;课程产出、学习对象、部署链路、课程网站 Part 到 6 个课堂专题的映射 | GitHub 大纲、sidebars.ts、docs/course-hours.md |
| 006-010 | 一日授课节奏与实验准入 | 上午/下午专题节奏、5 页闭环、变量控制方式、进入 Qwen/GGUF 量化实验前的准入检查 | docs/slides-day-flow.md、docs/report-template.md、docs/final-project.md |
| 011-015 | 端侧场景地图 | 手机、PC、车载、IoT、摄像头、Jetson 和本地服务器分别对应不同硬约束;先写场景画像,再决定第一轮证据和报告风险 | GitHub 大纲、docs/01-framework.md、docs/environment-matrix.md |
| 016-020 | 推理共同语言 | 先拆开一次 Qwen 请求,再固定输入契约、prefill/decode、KV Cache 和 baseline 字段;缺字段时 Q8/Q5/Q4 对比不能写成结论 | docs/ml-inference-basics.md、docs/transformer-llm-basics.md |
| 021-025 | 端云协同 | local-first 路由不是架构图,而是隐私、复杂度、风险三类规则;每条请求要留下本地、兜底、确认或拒绝的日志证据 | docs/01-framework.md、docs/07-vlm-agent.md |
| 026-030 | 环境准入 | Ubuntu GPU、Jetson、CPU-only、移动端路线;设备证据、工具链证据、模型证据决定今天能做哪条路线,缺项只能标“未验证” | docs/environment-matrix.md、docs/lab-qwen-baseline.md |
| 031-035 | 实验变量控制 | 进入 Qwen GGUF 量化前先交变量控制单;模型、输入、运行三类变量先锁定,TTFT、tokens/s、内存、质量和日志路径作为结果证据,变量漂移必须写进失败记录 | docs/lab-qwen-quantization.md、docs/report-template.md |
| 036-040 | 报告落点 | 专题一交付 M0/M1 材料:场景约束卡、环境记录表、baseline plan、模型清单、指标口径和量化空表;缺证据只能写“未记录”或“未测” | docs/report-template.md、docs/final-project.md |
专题二:Qwen/GGUF Baseline 与 PTQ/QAT 量化证据,041-080
| 页码 | 小闭环 | 具体内容 | 主要来源 |
|---|---|---|---|
| 041-045 | 专题开场 | 专题二先把 Qwen/GGUF 基线和量化实验口径立住;baseline 不只是能输出文本,而是要留下模型来源、llama.cpp commit、固定 prompt、stderr timing、资源和质量备注,才能作为 Q8/Q5/Q4 的参照物 | docs/lab-qwen-baseline.md、docs/02-ptq-qat.md |
| 046-050 | 数值格式 | baseline 合格后再讨论数值格式;bit 数只是入口,Q4/Q5/Q8 要同时核对模型同源、GGUF metadata、runtime/backend 支持和文件、内存、速度、质量四类端到端收益 | docs/02-ptq-qat.md、Arm Advanced Quantization |
| 051-055 | 线性量化 | 用 scale、zero-point、qmin/qmax、rounding 和 clipping 回答 Q4/Q8 质量差异从哪里来;报告第 4 节不能只写“Q4 变差”,必须区分量化误差、outlier、clipping、runtime fallback 和实验条件漂移 | docs/02-ptq-qat.md |
| 056-060 | 粒度和对象 | per-tensor、per-channel、per-group 决定误差由谁承担;Qwen GGUF 表格必须把量化格式、粒度、weight-only、activation、KV Cache 和 runtime/kernel 支持分列记录 | docs/02-ptq-qat.md |
| 061-065 | PTQ 工作流 | PTQ 先产生候选,不直接产出结论;现成 GGUF、自己量化和静态校准三条入口都必须回到同一 baseline、同一 prompt、同一 runtime 的文件、内存、速度和质量证据表 | docs/02-ptq-qat.md、docs/lab-qwen-quantization.md |
| 066-070 | QAT 决策门 | QAT 是质量修复决策,不是默认下一步;只有 PTQ 被同条件证伪且数据、预算、导出链路和回归测试都具备,才进入 QAT、LoRA 或蒸馏,否则写明不训练或回退 Q5/Q8 | docs/02-ptq-qat.md、docs/course-hours.md |
| 071-075 | 数据与实验口径 | 先给校准样本、评估样本、失败样例和脱敏边界分工;每行实验记录必须固定模型、prompt 集、chat template、ctx、seed、runtime 和日志路径,否则只能写风险不能写推荐 | docs/02-ptq-qat.md、docs/report-template.md、docs/04-accuracy-repair.md |
| 076-080 | 量化报告落点 | 专题二的 M2 交付是一张可审查的 Q8/Q5/Q4 量化证据表:同源、同条件、同口径记录模型、运行条件、资源收益、质量证据和 keep/fallback/risk/untested 判断;证据没闭合就不能带着结论进入专题三 | docs/report-template.md、docs/lab-qwen-quantization.md、docs/final-project.md |
专题三:低比特 LLM、KV Cache 与质量归因,081-120
| 页码 | 小闭环 | 具体内容 | 主要来源 |
|---|---|---|---|
| 081-085 | 专题开场 | 专题三从 M2 量化证据表继续拆账;先把权重文件、激活 outlier、KV Cache/runtime 状态和生成质量失败标签分开记录,再讨论 GPTQ/AWQ/SmoothQuant | docs/03-llm-quantization.md、docs/lab-qwen-quantization.md、docs/report-template.md |
| 086-090 | 推理成本 | tokens/s 不能解释一次请求的全部成本;M2 扩展表必须把 prompt eval/prefill、eval/decode、ctx-size、prompt/generated tokens、KV Cache、RAM/VRAM、warning/fallback 和质量备注写回同一行实验 | docs/03-llm-quantization.md、docs/lab-profiling.md、docs/report-template.md |
| 091-095 | 低比特失败归因 | Q4 失败不能直接怪量化方法;先排除 Q8/F16 baseline、prompt/template/tokenizer、ctx/采样参数和 runtime/fallback,再用 baseline_fail、prompt_issue、low_bit_regression、ctx_kv_issue、runtime_fallback 等标签决定回退、调参或进入修复专题 | docs/03-llm-quantization.md、docs/04-accuracy-repair.md、docs/report-template.md |
| 096-100 | GPTQ 决策边界 | GPTQ 先过格式和 runtime 闸门;课堂重点是校准输入 X 如何决定补偿方向、逐层补偿的跨层风险、safetensors + quantize_config.json 与 GGUF 的交付差异,以及未实跑时只能写候选或未测原因 | docs/03-llm-quantization.md |
| 101-105 | AWQ 候选闸门与端侧适配 | AWQ 用激活统计识别重要通道并通过缩放降低低比特损伤;课堂重点是校准覆盖、缩放边界、VLM projector 等敏感模块、格式/runtime 日志,以及为什么未实跑时只能写候选或未测原因 | docs/03-llm-quantization.md |
| 106-110 | activation outlier、W8A8 与 KV Cache 分账 | SmoothQuant、LLM.int8、GGUF Q4/Q5 和 KV Cache 不能混写;课堂重点是先判断问题在激活、权重还是 KV Cache,再分开记录校准、kernel/runtime、weight-only 文件收益、KV buffer、OOM 和长上下文质量,未跑通的路线只写扩展或风险 | docs/03-llm-quantization.md |
| 111-115 | Qwen/GGUF 主实验闭环 | GPTQ/AWQ/SmoothQuant 只能进入候选表,今天的推荐必须来自同源 Qwen GGUF、同 prompt、同 llama.cpp 和同一套日志;每一步都要落到第 2、4、5、6、7、8 节报告字段,主实验不闭合就只能写回退或继续验证 | docs/03-llm-quantization.md、docs/lab-qwen-quantization.md、docs/report-template.md |
| 116-120 | 专题三证据分级与收束 | 把 GGUF Q8/Q5/Q4、KV Cache、GPTQ/AWQ、SmoothQuant/LLM.int8 按证据等级收口为推荐候选、回退候选或继续验证;进入专题四前必须留下原始输出、timing/资源表、失败标签和未测路线风险 | docs/03-llm-quantization.md、docs/report-template.md |
专题四:精度修复、压缩蒸馏与 LoRA/QLoRA 决策,121-160
| 页码 | 小闭环 | 具体内容 | 主要来源 |
|---|---|---|---|
| 121-125 | 质量修复准入闸门 | 接住专题三证据包,先证明失败不是 baseline、prompt/template、ctx/KV、runtime 或设备状态问题,再决定 prompt 修复、量化回退、mixed precision、校准、蒸馏、LoRA/QLoRA 或不训练;每个失败样例都要有可重跑记录 | docs/04-accuracy-repair.md、docs/report-template.md |
| 126-130 | 质量问题分诊 | 质量问题不能混写成“效果不好”;先把失败分到指标型、生成型或链路型任务账本,再保存可回放证据、固定失败标签,并把第 4 节质量现象和第 7 节风险登记分开写 | docs/04-accuracy-repair.md、docs/report-template.md |
| 131-135 | baseline 与评估集 gate | 修复前先让 Q8/F16 在同 prompt、template、runtime 和 ctx-size 下站住;baseline 回答模型是否会做,评估集回答比较是否公平,只有同一 JSONL、同一运行条件和可追溯日志齐全,Q4/Q5 失败才允许进入量化退化判断 | docs/04-accuracy-repair.md、docs/report-template.md |
| 136-140 | 单变量误差归因 | 质量下降不能直接写成“量化导致”;一次只改一个变量,先排除 baseline、prompt/template、ctx/seed、runtime/backend 和设备状态,再把同条件低比特失败归到校准分布、敏感层、outlier、KV Cache 或混合精度候选,并为每个归因写出反证路径和日志证据 | docs/04-accuracy-repair.md、docs/report-template.md |
| 141-145 | 修复手段成本排序 | 归因闭合后先选择最便宜且可复测的动作:prompt/template、采样参数、Q5/Q8 回退优先,其次是校准集重构、imatrix、mixed precision 或局部回退;LoRA/QAT/蒸馏未实跑时只能写候选,所有修复都要用同一评估集复测质量、速度、内存和日志路径 | docs/04-accuracy-repair.md、docs/finetuning-lora.md、docs/report-template.md |
| 146-150 | 压缩路线瓶颈判断 | 压缩不再从剪枝、低秩或蒸馏方法名出发,而是先证明瓶颈在文件、峰值内存、算子延迟、输出质量或设备稳定性;课堂只做低成本判断,优先用 Q8/Q5/Q4 和更小模型形成可复测对照,剪枝、低秩、蒸馏只写进入条件和验证计划,所有路线必须回到质量、速度、内存、设备日志和 runtime 支持 | docs/05-compression-distillation.md、docs/report-template.md |
| 151-155 | 蒸馏进入门槛 | 蒸馏不是质量下降后的默认动作,只有任务稳定、教师可靠、学生可部署、评估能回归时才进入第二阶段;课堂只交付蒸馏准备度,填写教师输出卡、学生部署卡和数据回归卡,标记先蒸馏后量化或量化后补偿,未实跑训练时只能写进入条件和验证计划 | docs/05-compression-distillation.md、docs/finetuning-lora.md、docs/report-template.md |
| 156-160 | 专题四报告收口 | 质量修复、压缩和蒸馏不以方法跑过结束,而以报告第 7 节风险登记和第 8 节部署建议结束;课堂用一个固定失败样例写出推荐、回退和暂不推荐,缺证据的字段只能写未记录、失败或下一轮验证 | docs/04-accuracy-repair.md、docs/report-template.md |
专题五:Runtime、Profiling 与 Local API 验收,161-200
| 页码 | 小闭环 | 具体内容 | 主要来源 |
|---|---|---|---|
| 161-165 | 专题五验收入口 | 专题四得到的推荐、回退或暂不推荐,进入专题五后必须用同一 Qwen GGUF 在 CLI、bench、profiling 和 local API 下复查;CLI stderr timing、llama-bench、系统采样和 API smoke test 不能混成一个速度,缺任一类证据时第 8 节只能写未完全验证 | docs/inference-acceleration.md、docs/06-runtime-deployment.md、docs/lab-profiling.md、docs/lab-local-service.md |
| 166-170 | 对象连续性验收 | CLI、llama-bench 和 llama-server 的结果只有在模型文件、tokenizer/template 和 runtime 参数一致时才能放进同一张表;课堂先填对象核对表,逐列核对模型路径、hash、量化格式、ctx、-ngl、threads、backend、server model id 和 warning,对不上时不能写同一个部署建议 | docs/06-runtime-deployment.md、docs/lab-qwen-baseline.md、docs/lab-local-service.md、docs/report-template.md |
| 171-175 | Runtime 选型证据矩阵 | runtime 不是框架名投票,必须按证据等级排序:llama.cpp 是本课主线实测,ONNX/TensorRT 是候选对照,LiteRT/Core ML/ExecuTorch 是端侧路线图,MLC/vLLM/TensorRT-LLM 是进阶 serving;课堂只填主线和一个替代路线,推荐路线必须有日志,替代路线要写适用条件、未测原因和下一步验证 | docs/06-runtime-deployment.md、docs/report-template.md、MLSysBook/TinyML |
| 176-180 | 性能陷阱排查闭环 | 文件变小、写了 -ngl 或换了 runtime 都不等于端到端更快;课堂先给速度没有提升的记录贴 fallback、dequant、shape、API overhead、quality regression 或 untested 标签,并用 runtime log、pp/tg、资源采样、curl elapsed 和 server log 反证,证据不足只能写未记录或下一轮 profiling | docs/06-runtime-deployment.md、docs/inference-acceleration.md、docs/lab-profiling.md、docs/report-template.md |
| 181-185 | llama.cpp baseline 实作闭环 | 这 45 分钟先留下一份能复跑的 Qwen GGUF baseline:记录 llama.cpp commit、CUDA build、模型来源/许可证/SHA256、固定 prompt、ctx、-ngl、seed、stderr timing、显存采样和质量样例;后续 Q8/Q5/Q4、offload、ctx-size、llama-bench 和 local API 都必须回到这条 baseline | docs/lab-qwen-baseline.md、docs/06-runtime-deployment.md、docs/report-template.md |
| 186-190 | Profiling 记录闭环 | profiling 不是 tokens/s 截图;课堂每次实验只改一个主变量,并把 workload、stderr timing、llama-bench pp/tg、nvidia-smi 或 tegrastats 资源采样、质量样例和日志路径写成同一行;短实验 GPU utilization 可能采到 0%,必须同时看显存、功耗和 llama.cpp timing | docs/lab-profiling.md、docs/report-template.md |
| 191-195 | Local API 服务化验收闭环 | local API 不等于 HTTP 200;课堂用同一条 Qwen GGUF/llama.cpp baseline 启动 llama-server,分别保存 server log、请求 JSON、响应 JSON、HTTP 状态、elapsed/meta、model alias、资源变化和绑定范围,明确 CLI 快不代表 API 快,服务化是否进入应用/VLM/Agent 集成要写风险边界 | docs/lab-local-service.md、docs/report-template.md |
| 196-200 | 专题五报告收口闸门 | 专题五结束前要交付 runtime、profiling、API 三包证据,并把它们写入报告第 5-8 节:第 5 节写 runtime 参数、pp/tg、资源采样和日志路径,第 6 节写 server log、请求/响应、HTTP meta 和模型 hash,第 7 节写 warning、fallback、timeout、OOM 和质量退化,第 8 节只写证据闭合的推荐、不推荐、回退参数和下一步验证 | docs/report-template.md、docs/final-project.md、docs/06-runtime-deployment.md |
专题六:Jetson/移动端迁移、VLM/Agent 与最终报告,201-240
| 页码 | 小闭环 | 具体内容 | 主要来源 |
|---|---|---|---|
| 201-205 | 真实端侧迁移验收入口 | 专题六不重开模型路线,而是把专题五闭合的 Ubuntu baseline 迁移到 Jetson 或写成移动端路线图;课堂先证明模型 hash、量化格式、prompt、ctx、-ngl 和 runtime commit 同源,再记录 Jetson 型号、内存、JetPack/L4T、功耗模式、tegrastats、stdout/stderr 和质量样例;没有本机日志的移动端、VLM 或 Agent 扩展只能写路线图、未测原因和下一步验证 | docs/jetson-deployment.md、docs/lab-jetson-setup.md、docs/final-project.md |
| 206-210 | VLM 链路证据 | VLM 先定位失败发生在哪一段,再按输入账、对齐账和生成账记录;课堂要保存输入图、crop/resize、visual token、encoder latency、mmproj 文件/hash/精度、LLM pp/tg、ctx、峰值内存、原始回答和失败标签;没有输入图和 mmproj 记录时,不能写端侧 VLM 结论 | docs/07-vlm-agent.md |
| 211-215 | VLM 优化路线 | VLM 优化不先追求完整端侧化,而是先让系统少看一点图:ROI、降分辨率、降帧率、缓存、去重和传统视觉/OCR 初筛先减少 visual token 与预处理成本;再判断 vision encoder INT8、LLM Q5/Q4、ctx/KV 策略和 mmproj 回归;端云协同必须写清隐私规则、fallback trace 和授权记录 | docs/07-vlm-agent.md、docs/06-runtime-deployment.md |
| 216-220 | Agent 权限与 trace 闭环 | Agent 能生成 JSON 不等于可以执行动作;课堂先检查 allowed、confirm_required、blocked 三个集合互斥,高风险 denylist 不能进入 allowed,再记录 planner output、tool intent、args、schema result、policy result、permission decision、execution status、observation、error 和 recovery action;没有可重放 trace 时只能写路线图 | docs/07-vlm-agent.md、Microsoft EdgeAI |
| 221-225 | Function Calling 契约闭环 | Function Calling 只能生成工具意图,执行权必须留在应用层;课堂把工具调用拆成 schema gate、policy gate、confirm gate 和 executor gate,记录 tool name、args、schema result、policy result、confirm flag、status/error、observation 和脱敏 trace;没有 validator、policy、executor 或可重放 trace 时只能写接入条件,不能写可部署 Agent | docs/07-vlm-agent.md |
| 226-230 | 端云协同路由闭环 | 端云协同不能写成“本地不行就上云”;课堂先按 privacy gate、capability gate、failure gate 判定 local、cloud fallback、人工确认或拒绝,再记录 task_type、sensitivity、upload_allowed、local result、quality check、fallback reason、uploaded_fields、authorization、final_source、output schema 和 trace;没有授权记录、脱敏字段表或 fallback trace 时只能写概念路线图 | docs/07-vlm-agent.md |
| 231-235 | 案例复盘证据闭环 | 传统视觉、小型 LLM、VLM 和 Hybrid Agent 不能套同一套 Q4 结论;课堂先写目标、workload、主瓶颈和证据,再判断量化、runtime、架构或权限是否解决问题;每个案例交一张复盘卡,包含场景、设备、条件、结果、失败标签、主瓶颈和推荐/回退/暂不推荐/下一轮验证 | docs/08-cases-qa.md |
| 236-240 | 最终报告验收闭环 | 最终收束不是 demo 展示,而是证据索引;报告按第 1-9 节检查场景环境、baseline 量化、runtime API、风险建议和附录证据,最终建议只能写推荐上线候选、暂不推荐或继续验证;缺字段必须标注未记录、未完成或未测 | docs/final-project.md、docs/report-template.md |
备份页
备份页不计入 240 页主课件,但应另备:
| 备份内容 | 页数 |
|---|---|
| 量化公式推导:linear quantization、clipping、outlier | 6 |
| GPTQ/AWQ/SmoothQuant 论文细节 | 8 |
| llama.cpp、server、profiling、日志路径命令附录 | 8 |
| LiteRT、ExecuTorch、Core ML、MLC 移动端路线 | 6 |
| Jetson 功耗、温度、长稳测试补充 | 6 |
| 参考资料和阅读清单 | 4 |
下一版课件改造规则
- 保留 reveal.js 和现有视觉系统,直接扩充
static/slides/deck/index.html。 - 不再按 108 页做 V3;下一版目标是 240 页主课件。
- 每个主讲专题固定 40 页,每 5 页形成一个小闭环。
- 课程网页已有详细内容时,课件只抽“可讲的图、表、命令、日志和失败样例”。
- 每个主讲专题最后 5 页必须回到最终部署评估报告。
- 参考页保留公开资料来源,但课堂结论只来自本课程实验、日志和报告证据。
最小可交付版本已经从 47 页扩到 240 页主课件。现在不再继续堆页数,剩下的工作是全局放映验收和交付形态稳定。
当前扩展参考页
当前 HTML 课件在 240 页主线之后追加了 241-288 共 48 页扩展参考页,来源包括 HarvardX/TinyML selected slides、tinyML Foundation Peter Ing deck 解析内容、MIT 6.5940 和 MLSys 公开课件。它们只作为备课参考、备用解释和来源索引,不替代 001-240 的主讲页。
完成方式
当前 288 页版本已经够做内容底稿,主课件也已经按 001-240 拆成 6 个专题。后面不要继续堆页数,优先把它做成能连续讲一天、能验收、能交付的课程 PPT。
实际完成路径分四步:
- 主课件成稿:001-240 已拆成 6 个专题,206-240 也已按 5 页闭环收完。
- 做整套视觉和讲授节奏检查:统一专题入口、页脚来源、标题长度、表格密度和文字溢出,不重写内容架构。
- 然后补讲师材料:为每个 45 分钟专题补 1 页讲师提示,写清本段讲多久、现场问什么、学生交什么。
- 最后导出交付包:保留 HTML 课件作为主版本,再按需要导出 PDF 或 PPTX;只有 HTML 稳定后才做导出,避免两套内容不同步。
验收标准也按这四步来:001-240 能连续讲完,6 个专题各有 40 页,所有建议都能回到日志、表格或报告字段,浏览器无明显越界,typecheck 和 build 通过。
| 方式 | 适合情况 | 取舍 |
|---|---|---|
| A. 继续打磨 HTML 课件 | 现在这个项目的主交付 | 最快,能直接预览和发布;推荐路线 |
| B. 内容锁定后导出 PDF/PPT | 需要离线发给学员或现场备用 | 先锁内容和版式,再做导出,避免重复返工 |
| C. 重新做原生 PPTX | 对方明确要求可编辑 PowerPoint | 成本最高,只在 HTML 版定稿后再做 |
推荐采用 A,必要时补 B。C 不作为当前主线。
完成路径
| 阶段 | 产出 | 验收 |
|---|---|---|
| 1. 锁主线 | 001-240 保持 6 个主讲专题,241-288 只做备课/备份页 | 每专题 40 页,不新增主讲专题 |
| 2. 全量叙事审稿 | 每页都有一句清楚的课堂主张,前后页能自然接上 | 001-240 能从问题讲到报告 |
| 3. 内容密度压缩 | 长 bullet 改成流程图、矩阵表、命令页、日志页和 failure case | 单页只承担一个讲授点 |
| 4. 证据链校对 | 课程网站、参考课件、本课实验、报告字段能互相对上 | 外部资料只做来源,不直接替代本课结论 |
| 5. 备份页整理 | 241-288 拆成真正备用页,或者迁回相关专题 | 附录不承担主讲内容 |
| 6. 放映验收 | 浏览器逐段检查、typecheck、build | 1280x720 无溢出,能直接放映 |
从当前状态继续做的执行队列
当前不需要换技术路线,也不需要重做课件框架。206-240 已经按 5 页闭环收完;下一步只做全局放映验收、必要的版面修正,以及最后的交付包导出。
| 顺序 | 范围 | 任务 | 完成标准 |
|---|---|---|---|
| 1 | 206-210 | 已精修 VLM 链路证据:输入账、对齐账、生成账和组件风险 | VLM 页能回答失败来自输入、视觉侧还是语言侧 |
| 2 | 211-215 | 已精修 VLM 优化路线:输入先减负、模型再取舍、系统最后兜底 | 优化建议能回到分辨率、token、内存、延迟、隐私边界和失败样例 |
| 3 | 216-220 | 已精修 Agent 权限与 trace 闭环:策略集合、denylist、执行状态和恢复记录 | Agent 页不写自动化口号,只写可校验的工具边界和 trace |
| 4 | 221-225 | 已精修 Function Calling:schema validation、policy check、confirm gate 和应用层 executor | Function Calling 不等同于模型直接执行工具 |
| 5 | 226-230 | 已精修端云协同:privacy gate、capability gate、failure gate 和 fallback trace | 端云协同页不写概念连线,只写可复核的路由判定和授权记录 |
| 6 | 231-235 | 已精修案例复盘:目标、条件、结果、失败标签、主瓶颈和下一步 | 案例页不套同一量化答案,每个判断都能回到日志或复盘卡 |
| 7 | 236-240 | 已精修最终报告验收:证据索引、三类建议、九节报告检查和证据缺口 | 最终建议只引用已闭合日志、表格、风险登记和未测说明 |
| 8 | 241-288 | 已整理为扩展参考页:TinyML、嵌入式系统、传感器、runtime、安全和来源索引 | 附录明确不承担主讲内容,只支撑备课和备用解释 |
| 9 | 001-240 | 主课件全局放映验收 | 6 个专题各 40 页,能从问题讲到报告,浏览器无明显溢出 |
| 10 | 交付包 | HTML 主版本稳定后再导出 PDF/PPTX | typecheck、build 通过,导出版不和 HTML 内容分叉 |
叙事审稿第一轮已经先处理 001-240 的明显模板化标题:章节开场页、专题一核心概念内容和案例复盘页都改成课堂主张。后续重点转到内容密度和单页可讲性。
内容密度第一轮先处理章节开场页:把章节开场改成“输入 / 方法 / 交付”的课程口径。后续再处理单页长列表和扩展参考页。
内容密度第二轮先压缩 035、085、090、110、115 五个风险与报告页:每页从 4 个失败样例 + 3 个报告落点,合并成 3 个失败样例 + 2 个报告落点,保留证据链但减少放映时的文字负担。
内容密度第三轮继续压缩专题五 170、175、180、185、190 五个风险与报告页:把模型链路、runtime 选型、性能陷阱、CLI baseline 和 profiling 风险都控制在 3 条失败样例 + 2 条报告落点内。
专题主题对齐课程网站目录后,6 个专题改成“Part I-VII 的一日压缩版”:Part I/II 合并为端侧部署共同语言,Part III 拆成 baseline/PTQ 与 LLM/KV 两段,Part IV 显式写入 LoRA/QLoRA,Part V/VI 拆成 runtime/profiling/API 与 Ubuntu/Jetson/移动端迁移,Part VII 收束到 VLM/Agent 和最终报告。
专题主题第二轮按课程网站细纲再收紧:专题一明确为项目启动和环境证据,专题二改成 Qwen/GGUF 基线与 PTQ/QAT 实验,专题三把 GPTQ/AWQ 与 KV Cache 写入标题,专题五把推理加速、bench 和 API 验收前置到主题名,专题六改成真实端侧迁移与最终报告。
课件成稿质量第一轮清掉 6 张专题开场页上的可见时间段,时间只作为备课节奏,不作为普通内容页文本;同时补强 006、008 两张短页,让端侧必要性和“部署不是搬模型”都能落到报告证据字段。
课件成稿质量第二轮清理 241-288 附录页的制作过程语言:附录页改成“扩展参考 / 专题扩展 / 主课证据链”的学员可见表达,但仍不替代 001-240 主课。
课件成稿质量第三轮继续清理 241-288 附录页更隐蔽的制作型标题:改成直接面向学员的设备、runtime、传感器和报告证据表述。
课件成稿质量第四轮从 001-240 主课件里清理少数占位式标题:把“常见失败样例 / 判断表 / 结果表字段 / API 命令页 / 记录表”改成课堂可直接讲的主张句,优先保证讲师看到标题就知道这一页要证明什么。
课件成稿质量第五轮清理所有可见页眉里的制作型标签:统一改成“问题框架 / 核心概念 / 证据图表 / 课堂实作 / 风险与报告 / 总结归纳”,页眉只服务学员听课,不暴露课件生产分工。
课件成稿质量第六轮继续清理 001-240 主课件里的表名式标题:把“矩阵 / 最小闭环 / 归因路径 / 选择表 / 排查动作 / 命令页 / 材料清单 / 新增字段”改成“这一页要证明什么”的主张句,正文表格和命令不变。
课件成稿质量第七轮清理正文里的备课语气:把内部说明改成面向学员和报告的工程边界表述。
课件成稿质量第八轮按课程网站细纲微调 6 个主讲专题命名:同步流程文档和 HTML 封面/专题开场页,并检查 001、041、081、121、161、201 六个改动页没有文字越界。
课件成稿质量第九轮补做 001-288 全 deck 放映风险检查:静态扫描确认 288 页完整、旧制作词为 0;浏览器分段遍历 288 页,发现并修正 114 和 239 两处不够正式的表述,复查改动页无越界、无控制台告警。
课件成稿质量第十轮先改开头的课程感:把 003 从报告证据链重复页改成 6 个工程专题地图,让学员在前 3 页就看到一天课程的完整学习路径。
课件成稿质量第十一轮继续改开头的课程感:把 002 从验收规则页改成学习产出页,明确学完后要能判断端侧化可行性、量化可用性和交付状态。
课件成稿质量第十二轮继续压实开头实作主线:把 004 从字段清单页改成“Qwen GGUF baseline -> Q8/Q5/Q4 -> profiling/local API -> 部署评估报告”的可复现部署链路页。
课件成稿质量第十三轮继续改 005-010 的课程感:把旧的端侧价值小节前移为“一日课程怎么讲”的导航段,明确课程网站 Part I-VII 如何压成 6 个课堂专题、上午/下午各讲什么、每个专题按五页闭环推进,以及进入 Qwen/GGUF 量化实验前需要哪些报告和日志字段。
课件成稿质量第十四轮继续改 011-015 的课程感:把设备列表改成“目标场景 -> 使用边界 -> 第一轮证据 -> 小组画像 -> 报告风险”的闭环,让手机、PC、车载、IoT、摄像头、Jetson 和本地服务器都回到可检查的场景画像和报告字段。
课件成稿质量第十五轮继续改 016-020 的课程感:修正“第四组词”与三张卡片不一致的问题,并把这一组改成“拆开一次 Qwen 请求 -> 固定三组推理词 -> 记录 baseline 字段 -> 避免量化对比失真”的闭环。
课件成稿质量第十六轮继续改 021-025 的课程感:把端云协同从概念页改成“路由证据”闭环,要求按隐私、复杂度和风险分三类任务,并用 request_id、敏感等级、fallback_reason、uploaded_fields、confirm_required 等字段证明本地、兜底、确认或拒绝路径。
课件成稿质量第十七轮继续改 026-030 的课程感:把“环境闸门”改成“环境准入”,明确设备证据、工具链证据、模型证据三类材料如何决定 Ubuntu GPU、Jetson、CPU-only 或移动端路线;缺项时报告只能标未验证,不能写推荐。
每一组 5 页的实际改法保持同一个模板:
读课程网站对应章节 -> 抽一个工程问题 -> 改 5 页 -> 更新本流程文档 -> typecheck/build -> 浏览器看 5 页
完成定义也很简单:不是“页数够了”,而是讲师可以顺着 001-240 连续讲完一天课程,并且每个专题最后都能落到最终部署评估报告。
专题一的样板标准已经先落到 016-020:同一个 5 页闭环必须把网站章节里的概念转成课堂可讲的工程链路。以“推理共同语言”为例,5 页分别承担:问题定义、关键术语、流程图、baseline 记录字段、失败样例和报告落点。后续专题二到专题六也按这个标准改,不再只堆术语。
专题一第二个样板标准落到 021-025:端云协同不能只画“本地 + 云端”架构图,必须写清哪些请求必须本地、哪些允许脱敏后云端兜底、哪些必须人工确认,并用路由日志证明 fallback 真的发生。
专题一第三个样板标准落到 026-030:目标设备和工具链不能只列名词,必须先做环境闸门;环境日志、模型清单、llama.cpp commit、构建目标和 API 端口缺一项时,后续 baseline、量化、profiling 或 local API 结论都要标为未完全验证。
专题一第四个样板标准落到 031-035:Q8/Q5/Q4 量化对比前必须先锁定实验变量;模型基座、prompt、ctx-size、seed、采样、runtime commit、offload、设备状态和日志路径要进入同一张实验单,否则速度、内存或质量差异只能写成风险,不能写成部署结论。
专题一第五个样板标准落到 036-040:每个专题最后 5 页不能只做总结,要落成报告字段和下一专题准入门槛。专题一的交付物是第 1-2 节草稿、四张基础表和进入量化前的准入检查。
专题二的样板标准先落到 042-045:量化课不能直接从 bit-width 开始,必须先建立 Qwen/GGUF baseline 证据链,再进入 Q8/Q5/Q4、PTQ/QAT 和量化变量控制。
专题二第二个样板标准落到 046-050:数值格式页不能做 FP32/FP16/INT8/INT4 名词表,而要让学生知道低 bit 文件、量化格式、runtime backend、硬件 kernel 和输出质量必须一起验证。
专题二第三个样板标准落到 051-055:线性量化不应停在公式推导,要用 scale、zero-point、rounding 和 clipping 解释 outlier 为什么会放大量化误差,并把 Q8/Q5/Q4 质量退化的可能原因写进报告第 4、5、7 节。
专题二第四个样板标准落到 056-060:粒度和对象不能混写成“模型 4bit”;per-tensor、per-channel、per-group 决定误差和 metadata 怎么分摊,weight-only、activation、KV Cache 影响的资源不同,报告第 4、5、7 节必须分列。
专题二第五个样板标准落到 061-065:PTQ 不是文件生成作业,而是快速产生可证伪候选。现成 GGUF、自己转换和静态校准都要回到同一 prompt、同一设备、同一 runtime 的质量、速度、内存和失败样例记录。
专题二第六个样板标准落到 066-070:QAT 不能作为默认答案;只有在 PTQ 退化被固定样例证明,并且数据、训练预算、导出链路和回归测试都成立时,才进入训练型修复,否则优先回退 Q5/Q8、mixed precision、换模型或记录“不训练”理由。
专题二第七个样板标准落到 071-075:校准集、评估集和失败样例必须分工记录;校准样本只证明量化范围覆盖,评估样本才证明任务质量,失败样例进入风险登记,任何数据来源、prompt template 或脱敏边界不清都不能支撑部署结论。
专题二第八个样板标准落到 076-080:专题收束不能只留下“低 bit 更小”的口号,必须形成报告第 4 节的量化证据表;同源模型、同条件运行、同口径质量和资源记录齐全后,才能进入专题三讨论 GPTQ、AWQ、SmoothQuant、KV Cache 和生成质量账。
专题三第一个样板标准落到 081-085:LLM 量化不能照搬传统 INT8 经验,也不能只看权重文件大小;课堂一开始就要把权重、激活 outlier、KV Cache 和生成质量拆成四本账,并让 Qwen Q8/Q5/Q4 对比表同时记录文件、速度、内存、warning/fallback 和质量失败标签。
专题三第二个样板标准落到 086-090:推理成本不能用一个总耗时概括;prefill、decode 和 KV Cache 必须分开讲、分开记,prompt eval time、eval time、tokens/s、ctx-size、prompt/generated tokens 和 RAM/VRAM 峰值都要进入同一张 profiling 表。
专题三第三个样板标准落到 091-095:LLM 量化难点不能停在 outlier、敏感层、长上下文这些名词上;每个低比特失败都要先排除 baseline、prompt/template、ctx 和 runtime,再用原始输出与失败标签判断是否来自 outlier、敏感层、长上下文或生成稳定性。
专题三第四个样板标准落到 096-100:GPTQ 不能只讲方法名或论文结论;必须说明校准输入 X 如何决定补偿方向、逐层补偿不能消除跨层累积风险、产物格式通常不是 GGUF,并把是否实跑、runtime 支持和设备 profiling 写进报告。
专题三第五个样板标准落到 101-105:AWQ 不能只讲 activation-aware 这个名词;必须说明校准文本如何决定重要通道、缩放保护不是高精度保留、VLM projector 等敏感模块要单独评估,并把模型格式、runtime 加载、profiling 和 AWQ 与 GGUF 主实验的层级关系写清。
专题三第六个样板标准落到 106-110:SmoothQuant、LLM.int8、GGUF Q4/Q5 和 KV Cache 不能混写;必须先判断问题在激活、权重还是 KV Cache,再把 activation outlier、W8A8 kernel、weight-only 文件收益、KV buffer、OOM 和长上下文质量分开记录,未在本课设备上跑通的路线只能写成扩展或风险。
专题三第七个样板标准落到 111-115:Qwen/GGUF 主实验不能只贴命令;必须交付同源模型清单、固定 prompt、F16/Q8/Q5/Q4 原始输出、stdout/stderr、profiling 参数和 local API 记录,并确保每条命令能回溯到报告表格。
专题三第八个样板标准落到 116-120:专题三收束不能新增方法名,而要把 GGUF Q8/Q5/Q4、KV Cache、GPTQ/AWQ、SmoothQuant/LLM.int8 按证据等级收进同一张方法矩阵;推荐候选、回退候选、继续验证路线、失败样例和专题四要修复的问题都要写清。
专题四的样板标准先落到 122-125:精度修复不能从 LoRA、QAT 或蒸馏开始,必须先证明失败来自量化,再把失败样例归到 baseline、prompt/template、ctx/KV、runtime/设备或低比特退化,并把可复现条件写进报告。
专题四第二个样板标准落到 126-130:质量问题不能混写成“效果不好”;传统视觉、LLM、VLM 和 Agent 要分别绑定指标、原始输出、图片输入或 tool trace,并使用固定失败标签支撑第 4 节质量现象和第 7 节风险登记。
专题四第三个样板标准落到 131-135:baseline 与评估集不是背景材料,而是进入修复前的闸门;F16/Q8 baseline、固定 JSONL prompt 集、template/tokenizer/ctx/runtime 一致性和日志路径都通过后,Q4/Q5 的失败才可以归因到量化。
专题四第四个样板标准落到 136-140:误差归因必须是单变量排查,不是经验判断;先排除 baseline、prompt/template、ctx、runtime 和设备差异,再把失败归到校准分布、敏感层、outlier 或长上下文,并在第 7 节写清反证路径。
专题四第五个样板标准落到 141-145:修复手段必须按成本和证据排序;prompt/template、采样参数、Q5/Q8 回退、校准/imatrix、mixed precision、LoRA/QAT/蒸馏不能混成一个列表,只有修复前后用同一评估集复测质量、速度、内存和日志路径后,才能进入最终建议。
专题四第六个样板标准落到 146-150:压缩路线不能从方法名出发,必须先定位文件、内存、算子延迟、质量或设备稳定性瓶颈;量化、低秩、剪枝、换小模型、蒸馏和端云协同都要绑定目标设备证据,参数更少但没有 runtime/kernel、质量和 profiling 支撑时不能写成推荐。
专题四第七个样板标准落到 151-155:蒸馏不是质量下降后的默认动作,只有任务、教师输出、学生容量和评估集稳定后才进入;课堂最低交付是蒸馏数据卡、teacher/student 记录、训练成本和再量化回归计划,未实跑训练时不能把蒸馏写成最终推荐。
专题四第八个样板标准落到 156-160:专题收束必须把质量修复、压缩、蒸馏和微调取舍落成推荐采用、保留回退或暂不推荐三类结论;第 4 节写质量现象,第 7 节写风险和反证,第 8 节只写能回到日志、输出样例和同条件复测的工程建议。
专题五的样板标准先落到 162-165:Runtime 专题不能只列框架名,必须把模型格式、runtime、backend、profiling 和 API 分层记录,CLI、llama-bench 和本地 API 的指标不能混写。
专题五第二个样板标准落到 166-170:部署链路必须证明模型、tokenizer/template 和执行路径没有在 CLI、bench、server 之间被悄悄换掉;模型 hash、量化格式、runtime commit、backend/offload 日志、server 启动命令和请求记录要能互相对照。
专题五第三个样板标准落到 171-175:Runtime 选型不能做框架名罗列,而要同时回答模型格式、目标硬件、backend/kernel、接口形态和可观察性;主线 runtime 必须有实测证据,替代路线即使未实跑也要写清适用条件、未测原因和下一步验证。
专题五第四个样板标准落到 176-180:性能陷阱不能只讲 fallback、反量化和 dynamic shape 名词,而要用 stderr、runtime log、GPU/CPU 采样、llama-bench pp/tg、API elapsed 和 server log 反证理论加速是否兑现;没有反证日志时不能把参数调整写成推荐。
专题五第五个样板标准落到 181-185:CLI baseline 是后续量化、offload、ctx-size、bench 和 API 对比的锚点;模型路径、SHA256、量化格式、llama.cpp commit、prompt、ctx-size、seed、生成长度、stderr timing、GPU 采样和质量样例必须一次建齐。
专题五第六个样板标准落到 186-190:Profiling 不能只报 tokens/s,而要让每行结果同时绑定负载形状、CLI timing、llama-bench pp/tg、系统采样、质量备注和日志路径;缺少原始命令、资源状态或质量样例时,部署建议必须降级为不完整记录。
专题五第七个样板标准落到 191-195:Local API 验收不能停在 HTTP 200,而要同时保存 llama-server 启动日志、请求 JSON、响应 JSON/meta、模型别名、elapsed、server warning、资源采样、timeout 和 host 绑定边界;缺少请求响应或 server 证据时,第 6 节不能写成 API 已验收。
专题五第八个样板标准落到 196-200:专题收束要把 runtime 参数包、profiling 结果包和 API 验收包落到报告第 5-8 节;第 8 节只能引用已经闭合的模型、runtime、profiling、API 和风险证据,CLI、bench、API 指向对象不一致时不能写最终部署建议。
专题六的样板标准先落到 202-205:最后一个专题不是新增概念合集,而是把 Ubuntu baseline 推到 Jetson、移动端路线、VLM/Agent 和最终报告;没有设备日志、工具 trace 或策略边界时,只能写成路线图或未测风险。
专题六第二个样板标准落到 206-210:VLM 不能只评价语言模型输出,必须把图像输入、预处理、visual token、vision encoder、mmproj/projector、LLM pp/tg、KV Cache 和原始多模态输出分开记录;没有输入图、处理参数、组件日志和失败标签时,不能写端侧 VLM 结论。
专题六第三个样板标准落到 211-215:VLM 优化要按输入、模型、系统三层排序;先判断是否能通过 ROI、分辨率、帧率和传统视觉/OCR 初筛减少输入成本,再评估 vision encoder、LLM 量化和端云协同,未实跑时只能写场景化路线图和进入条件。
专题六第四个样板标准落到 216-220:Agent 端侧部署先定义工具权限和状态边界;planner output、tool schema、参数校验、permission decision、confirm/blocked reason、execution status、observation 和 recovery action 都要进入 trace,否则只能写 Agent 路线图,不能写已验收。
专题六第五个样板标准落到 221-225:Function Calling 不能等同于模型直接执行工具,必须经过 schema gate、policy gate、confirm gate 和应用层 executor;工具调用记录要保存 tool name、args、schema result、policy result、confirm flag、status/error、observation 和脱敏 trace,缺少 validator、policy、executor 或可重放 trace 时不能写成可部署 Agent。
专题六第六个样板标准落到 226-230:端云协同不能写成“本地不行就上云”,必须先过 privacy gate、capability gate 和 failure gate;路由记录要包含 task_type、sensitivity、upload_allowed、local result、quality check、fallback reason、uploaded_fields、authorization、final_source、output schema 和 trace,缺少授权记录、脱敏字段表或 fallback trace 时只能写概念路线图。
专题六第七个样板标准落到 231-235:案例复盘不能把传统视觉、小型 LLM、VLM 和 Agent 都套成同一个 Q4 问题,必须先定位主瓶颈在输入、模型、runtime、API 还是系统权限,再选择 accuracy/latency、Q8/Q5/Q4 profiling、VLM 组件日志或 Agent trace 作为证据;每个案例交一张复盘卡,写清目标、条件、结果、失败标签、主瓶颈和推荐/回退/暂不推荐/下一轮验证。
专题六第八个样板标准落到 236-240:最终收束必须变成可审查的端侧部署评估报告,报告要覆盖第 1-9 节的场景环境、baseline 量化、runtime API、风险建议和附录证据;最终建议只能写成推荐上线候选、暂不推荐或继续验证,缺证据时必须标注未记录、未完成或未测。
课件成稿质量第十八轮继续改 031-040 的课程感:把“变量控制”和“报告落点”合成专题一收束闭环,明确学生先交变量控制单和 M0/M1 报告材料,再进入 Qwen/GGUF 量化;第 2 节查不到写“未记录”,第 7 节没跑过写“未测”,避免把准备不足包装成部署结论。
课件成稿质量第十九轮继续改 041-050 的课程感:把专题二开场改成先交 Qwen/GGUF baseline 表和 Q8/Q5/Q4 模型清单,强调 baseline 要能复查模型、runtime、输入、资源和质量;数值格式页不再按 bit 数排序,而是要求先核对同源模型、GGUF metadata、backend 支持和端到端收益。
课件成稿质量第二十轮继续改 051-060 的课程感:把线性量化页改成“用公式做排障”,要求学生用 scale、zero-point、qmin/qmax、rounding 和 clipping 解释质量退化;把粒度和对象页改成“实验表分账”,明确 weight-only、activation、KV Cache、per-tensor、per-channel、per-group 不能混写成一个“4bit”标签。
课件成稿质量第二十一轮继续改 061-065 的课程感:把 PTQ 工作流改成“先产出可证伪候选”,修正入口为现成 GGUF、自己量化和静态校准三类;课堂验收强调只生成文件不算完成 PTQ,必须回到同一 baseline、同一 prompt、同一 runtime 的文件、内存、速度和质量证据表。
课件成稿质量第二十二轮继续改 066-070 的课程感:把 QAT 改成质量修复决策门,而不是 PTQ 后的默认下一步;课堂判断必须先证明低 bit 退化来自量化,再用数据预算、导出链路、回归测试和目标 runtime 决定训练、不训练或回退。
课件成稿质量第二十三轮先锁定 6 个主讲专题最终命名:专题名改成“课堂任务 + 工程证据”格式,分别覆盖端侧框架与环境准入、Qwen/GGUF PTQ/QAT 证据、LLM 低比特与 KV Cache 质量账、质量修复压缩蒸馏与训练取舍、Runtime/Profiling/API 验收、Jetson/移动端/VLM/Agent 与最终报告。
课件成稿质量第二十四轮继续改 071-075 的课程感:把数据口径小节从概念解释改成实验闸门,要求校准样本、评估样本、失败样例和脱敏边界先分工;每行 Q8/Q5/Q4 记录都要能按模型、prompt、template、ctx、seed、runtime 和日志路径重跑,否则量化差异只能写成风险。
课件成稿质量第二十五轮继续改 076-080 的课程感:把专题二收束改成 M2 量化证据表交付门槛;第 4 节必须同时记录同源模型、运行条件、资源收益、质量证据和 keep/fallback/risk/untested 判断,没有日志、输出样例或风险登记时不能带着推荐结论进入专题三。
课件成稿质量第二十六轮按课程网站内容微调 6 个专题名,并继续改 081-085 的课程感:专题三不再从方法名开始,而是从 M2 量化证据表继续拆账;先扩展权重文件、激活 outlier、KV Cache/runtime 和生成质量四类记录,再进入 GPTQ、AWQ、SmoothQuant、LLM.int8 和 GGUF 方法边界。
课件成稿质量第二十七轮继续改 086-090 的课程感:推理成本页不再只解释 prefill、decode 和 KV Cache,而是要求把 llama.cpp timing、ctx-size、prompt/generated tokens、RAM/VRAM、warning/fallback 和质量备注写回 M2 扩展表的同一行实验,避免用总耗时或 tokens/s 直接写部署建议。
课件成稿质量第二十八轮继续改 091-095 的课程感:低比特失败归因不再停在 outlier、敏感层和生成稳定性名词上,而是先排除 baseline、prompt/template/tokenizer、ctx/采样参数和 runtime/fallback,再用固定 failure_label 决定回退 Q5/Q8、调 ctx、查 runtime 或进入 mixed precision/校准修复。
课件成稿质量第二十九轮先根据课程网站进一步微调 6 个专题名:把专题一改为项目启动、端侧约束与环境准入,专题三改为 LLM 低比特、KV Cache 与质量归因,专题五改为 Runtime/Profiling、推理加速与本地服务验收,专题六改为真实端侧迁移、VLM/Agent 与部署评估报告;同时改 096-100,把 GPTQ 从方法介绍页改成格式、runtime、校准输入和设备日志的候选决策闸门。
课件成稿质量第三十轮继续改 101-105 的课程感:AWQ 不再停在“保护重要通道”方法介绍,而是进入候选闸门;先判断它要修复哪类 Q4 退化,再记录校准覆盖、缩放边界、VLM 敏感模块、模型格式、runtime 加载和 profiling,未实跑时只写候选或未测原因。
课件成稿质量第三十一轮继续按课程网站主线微调专题名,并改 106-110 的课程感:把 SmoothQuant、LLM.int8、GGUF Q4/Q5 和 KV Cache 从方法并列改成激活、权重、cache 三本账;课堂先判断失败来自哪一本账,再分别记录校准、kernel/runtime、weight-only 收益、KV buffer、OOM 和长上下文质量,未跑通的路线只写扩展或风险。
课件成稿质量第三十二轮继续改 111-115 的课程感:把 Qwen/GGUF 主线从“可复现实验链”压成报告闭合门槛;GPTQ/AWQ/SmoothQuant 只进候选表,课堂推荐只能来自同源 GGUF、固定变量、stdout/stderr、资源采样、输出质量和 API 证据,缺日志时只能写回退或继续验证。
课件成稿质量第三十三轮继续改 116-120 的课程感:专题三收束不再按方法热度排序,而按证据等级分成推荐候选、回退候选和继续验证;进入专题四前必须交付原始输出、timing/资源表、失败标签、未测路线风险和第 4 节可复查的量化证据表。
课件成稿质量第三十四轮继续改 121-125 的课程感:专题四开场不从 LoRA/QAT 等修复手段开始,而是接住专题三证据包做归因闸门;先排除 baseline、prompt/template、ctx/KV、runtime 和设备状态问题,再进入最低成本修复或训练门槛,所有失败样例都要能按 prompt、参数、输出和资源日志重跑。
课件成稿质量第三十五轮继续改 126-130 的课程感:质量问题分诊不再只是列传统视觉、LLM、VLM 和 Agent,而是先把失败分到指标型、生成型或链路型任务账本;每条失败都要保存可回放证据,Q8/Q5/Q4 使用固定失败标签对比,报告第 4 节写质量信号和样例,第 7 节写任务类型风险。
课件成稿质量第三十六轮继续改 131-135 的课程感:baseline 与评估集不再只是背景说明,而是修复前的 gate;Q8/F16 必须先在同 prompt、template、runtime 和 ctx-size 下站住,最小 JSONL 评估集要能重复跑,证据不齐时只能写 baseline 未通过或评估覆盖不足,不能写 LoRA/QAT/蒸馏等修复建议。
课件成稿质量第三十七轮继续改 136-140 的课程感:误差归因从名词表改成单变量排查;每次只改变一个条件,先排除 baseline、prompt/template、ctx/seed、runtime/backend 和设备状态,再讨论校准分布、敏感层、outlier、KV Cache 或 mixed precision,每个归因都要写出能推翻它的反证路径和日志证据。
课件成稿质量第三十八轮继续改 141-145 的课程感:修复手段不再按方法名罗列,而按证据门槛和成本排序;归因闭合后先做 prompt/template、采样、Q5/Q8 回退,再做校准/imatrix、mixed precision 或局部回退,LoRA/QAT/蒸馏未实跑时只能写候选,所有修复都必须回到同一评估集复测质量、速度、内存和日志。
课件成稿质量第三十九轮继续改 146-150 的课程感:压缩方法不再按剪枝、低秩、参数共享和架构重设计罗列,而是先证明部署瓶颈在哪里;文件、峰值内存、算子延迟、低比特质量和设备稳定性分别对应不同候选路线,课堂只做 Q8/Q5/Q4、更小模型和 runtime 支持的低成本判断,剪枝、低秩、蒸馏没有实跑证据时只能写进入条件和验证计划。
课件成稿质量第四十轮继续改 151-155 的课程感:蒸馏决策不再从 teacher/student 名词解释开始,而是先过任务稳定、教师可靠、学生可部署、评估能回归四个门槛;课堂最低交付是教师输出卡、学生部署卡和数据回归卡,未实跑训练、同集复测和再量化回归时,蒸馏只能写成第二阶段候选。
课件成稿质量第四十一轮继续改 156-160 的课程感:专题四结尾不再只是总结修复方法,而是把质量修复、压缩、蒸馏和训练取舍落到报告第 7 节风险登记与第 8 节部署建议;课堂用一条固定失败样例写出推荐、回退和暂不推荐,缺日志、输出样例、复测条件或风险登记时只能写未记录、失败或下一轮验证。
课件成稿质量第四十二轮继续改 161-165 的课程感:专题五开场从“runtime/profiling 名词”改成专题四建议的运行时验收入口;同一 Qwen GGUF 必须分别留下 CLI stderr timing、llama-bench、系统采样和 local API smoke test 四类证据,CLI 速度、benchmark 速度、资源状态和 API elapsed 不能混写,缺任一类证据时第 8 节只能写未完全验证。
课件成稿质量第四十三轮继续改 166-170 的课程感:部署链路不再泛讲 export、图优化和 kernel,而是先验收对象连续性;CLI、llama-bench 和 llama-server 必须分别证明模型路径、hash、量化格式、tokenizer/template、ctx、-ngl、threads、backend、server model id 和 warning 可对照,对不上时 CLI、bench 和 API 的数字不能支撑同一个部署建议。
课件成稿质量第四十四轮继续改 171-175 的课程感:Runtime 矩阵不再是框架名清单,而是按证据等级排序;llama.cpp 是本课主线实测,ONNX/TensorRT 是候选对照,LiteRT/Core ML/ExecuTorch 是端侧路线图,MLC/vLLM/TensorRT-LLM 是进阶 serving,推荐路线必须有日志,未实跑路线只能写适用条件、未测原因和下一步验证。
课件成稿质量第四十五轮继续改 176-180 的课程感:性能陷阱不再停在 fallback、反量化和 dynamic shape 名词,而是改成慢结果贴标签和反证流程;文件变小、写了 -ngl 或换了 runtime 都要先查 runtime log、pp/tg、资源采样、curl elapsed 和 server log,证据不足只能写未记录或下一轮 profiling。
课件成稿质量第四十六轮继续改 181-185 的课程感:llama.cpp 实作不再只是 CUDA、Qwen GGUF 和参数罗列,而是改成 baseline 验收闭环;课堂先交付可复跑命令、模型 hash、runtime commit、固定负载、stderr timing、显存采样和质量样例,后续量化、offload、ctx、bench 和 API 都必须回到同一条 baseline。
课件成稿质量第四十七轮继续改 186-190 的课程感:Profiling 不再是 TTFT、tokens/s、显存和功耗的指标罗列,而是改成采集、解析、判读、入报告闭环;课堂每次只改一个主变量,保存 stdout/stderr、资源采样、pp/tg、quality tag 和日志路径,短实验 GPU utilization 采到 0% 时不能单独下结论。
课件成稿质量第四十八轮继续改 191-195 的课程感:Local API 不再只是 OpenAI-compatible server、curl 和 HTTP 状态,而是改成服务化验收闭环;同一条 baseline 启动 llama-server 后,必须留下 server log、request JSON、response JSON、HTTP status、elapsed/meta、model alias、资源变化和绑定范围,再判断是否能进入应用、VLM 或 Agent 集成。
课件成稿质量第四十九轮继续改 196-200 的课程感:专题五结尾不再只是报告第 5-6 节落点,而是改成最终建议前的报告闸门;runtime、profiling、API 三包证据必须进入第 5-7 节,推荐、不推荐、回退参数和下一步验证只能引用已经闭合的日志、JSON、采样或失败证据,缺字段就写未记录。
课件成稿质量第五十轮继续改 201-205 的课程感:专题六开场不再泛讲 Jetson、移动端、VLM 和 Agent,而是改成真实端侧迁移验收入口;先证明同一 Qwen GGUF baseline 可迁移,再记录 Jetson 软件栈、功耗模式、tegrastats、stdout/stderr 和质量样例,没有本机日志的移动端、VLM 或 Agent 扩展只能写路线图和未测原因。
课件成稿质量第五十一轮根据课程网站 Part I-VII 再微调 6 个专题名:专题一改成端侧部署共同语言与环境准入,专题二突出 Qwen/GGUF baseline 和 PTQ/QAT 量化证据,专题三改成低比特 LLM、KV Cache 与质量归因,专题四显式写入 LoRA/QLoRA 决策,专题五收束为 Runtime、Profiling 与 Local API 验收,专题六改成 Jetson/移动端迁移、VLM/Agent 与最终报告。
课件成稿质量第五十二轮先把完成路径改成当前真实状态:主课件已经不是扩页阶段,而是 206-240 收口、001-240 全局验收、241-288 整理备课页、最后再导出交付包;后续每轮继续只处理一个 5 页闭环。
课件成稿质量第五十三轮继续改 206-210 的课程感:VLM 不再停在输入、encoder、projector 和 LLM 的组件列表,而是改成输入账、对齐账、生成账和组件风险闭环;课堂用视觉 token 公式解释 prefill/KV 成本,并要求保存输入图、处理参数、mmproj 文件/hash/精度、原始回答和失败标签,没有这些证据不能写端侧 VLM 结论。
课件成稿质量第五十四轮继续改 211-215 的课程感:VLM 优化不再按方法清单展开,而是按输入、模型、系统三层决策;先用 ROI、降分辨率、降帧率、缓存、去重和传统视觉/OCR 初筛减少 visual token,再评估 encoder INT8、LLM Q5/Q4、ctx/KV 和 mmproj 回归,端云协同必须写隐私规则、fallback trace 和授权记录。
课件成稿质量第五十五轮继续改 216-220 的课程感:Agent 端侧部署不再停在 planner、tools、state 名词,而是改成权限闸门和 trace 验收;课堂先检查 allowed、confirm_required、blocked 三个集合互斥和高风险 denylist,再记录 planner output、tool intent、schema result、policy result、execution status、observation、error 和 recovery action,没有可重放 trace 不能写已验收 Agent。
课件成稿质量第五十六轮继续改 221-225 的课程感:Function Calling 不再写成模型特权或 demo 展示,而是改成应用层契约闭环;课堂先让模型生成工具调用意图,再用 schema gate、policy gate、confirm gate 和 executor gate 判断是否执行,日志必须保存 tool name、args、schema result、policy result、confirm flag、status/error、observation 和脱敏 trace,没有 validator、policy、executor 或可重放 trace 时只能写接入条件。
课件成稿质量第五十七轮继续改 226-230 的课程感:端云协同不再写成“本地不行就上云”的概念图,而是改成可复核路由闭环;课堂先过 privacy gate、capability gate 和 failure gate,再记录 task_type、sensitivity、upload_allowed、local result、quality check、fallback reason、uploaded_fields、authorization、final_source、output schema 和 trace,缺少授权记录、脱敏字段表或 fallback trace 时只能写概念路线图。
课件成稿质量第五十八轮继续改 231-235 的课程感:案例串联不再把传统视觉、小型 LLM、VLM 和 Agent 都套成同一个量化答案,而是改成复盘卡闭环;每个案例先写目标、条件、结果、失败标签和主瓶颈,再判断推荐、回退、暂不推荐或下一轮只测一个变量,证据必须能回到日志、表格或 trace。
课件成稿质量第五十九轮继续改 236-240 的课程感:最终收束不再以 demo 成功结束,而是改成证据索引和报告验收;报告按第 1-9 节检查场景环境、baseline 量化、runtime API、风险建议和附录证据,最终建议只能写推荐上线候选、暂不推荐或继续验证,缺字段写未记录、未完成或未测。