跳到主要内容

排障索引

先按现象定位,再回到对应实验页。不要一开始就重装环境。

现象先看什么常见原因回看章节
CUDA 找不到nvidia-smi、CMake 日志驱动可见但开发库缺失Ubuntu 环境
llama-cli 不存在build/bin构建失败或路径不对Qwen 基线推理
模型加载失败文件名、文件大小、来源GGUF 下载不完整或版本不兼容Qwen 量化对比
首 token 很慢prompt eval、prompt 长度prefill 成本、冷启动、长上下文机器学习推理基础
tokens/s 很低eval time、GPU 是否参与CPU fallback、低比特 kernel 不匹配推理加速实验
Q4 更小但不更快offload 日志、kernel 支持反量化开销或瓶颈不在权重读取推理加速基础
显存或内存爆ctx-size、KV Cache上下文过长、模型过大、系统进程占用大模型量化与 KV Cache
输出乱码或风格异常tokenizer、chat template模型不是 instruct 版或模板不一致Transformer 与 LLM 基础
API 无响应server 日志、端口、host服务未启动、端口不一致、防火墙本地 API
Jetson 速度越跑越慢tegrastats、温度、功耗模式热降频、电源或散热不足Jetson 环境

排障顺序

  1. 保存原始日志。
  2. 判断是环境、模型、runtime、参数还是服务层问题。
  3. 只改变一个变量重试。
  4. 在报告中记录失败现象和下一步。

失败日志不是脏数据。端侧部署报告需要失败样例来说明边界。