跳到主要内容

端侧部署术语表

本页只收录课程中反复出现、会影响实验判断的术语。更细的公式约定见 公式与符号约定

术语一句话解释本课程在哪里用
TTFT从请求发出到第一个 token 返回的时间,也叫首 token 延迟推理指标、API 服务、profiling
tokens/sLLM decode 阶段每秒生成 token 数baseline、量化对比、加速实验
latency单次请求耗时,必须说明测量边界推理基础、服务化
throughput单位时间处理量,传统模型常用 samples/s,LLM 常用 tokens/sbatch、serving、benchmark
P50 / P99延迟分位数,P99 描述尾部慢请求服务化体验和稳定性
prefill处理 prompt 并写入 KV Cache 的阶段Transformer、TTFT、长上下文
decode逐 token 生成的阶段tokens/s、roofline、KV Cache
KV Cache保存历史 token 的 key/value,避免重复计算长上下文、显存、并发
GGUFllama.cpp/ggml 生态常用模型文件格式Qwen 本地部署
Q4/Q5/Q8GGUF 量化格式名,不等价于普通全模型 INT4/INT5/INT8量化对比
GPU offload把部分或全部层放到 GPU 上执行llama.cpp 加速、Jetson
ctx-sizellama.cpp 上下文长度设置KV Cache、内存、TTFT
LoRA adapter微调时保存的低秩增量参数微调、部署回归
QLoRA低比特加载基座并训练 LoRA 的方法小显存微调
chat template把 system/user/assistant 消息转为模型训练格式的模板Qwen、微调、服务化
calibration用代表性样本统计量化范围PTQ、activation 量化
outlier数值分布中少数异常大值,会拉大量化范围SmoothQuant、AWQ、LLM.int8
fallbackruntime 因不支持某算子或格式回退到 CPU 或慢路径profiling、排障
thermal throttling设备过热后降频,导致持续性能下降Jetson、长稳测试
OpenAI-compatible API兼容 /v1/chat/completions 等接口的本地服务形态local API、Agent 集成

容易混淆的词

容易混淆正确区分
模型文件大小 vs 运行内存运行时还有 KV Cache、activation、workspace、服务进程
TTFT vs tokens/s前者看第一个 token,后者看稳定生成速度
低比特 vs 更快低比特通常更小,是否更快取决于 kernel、带宽和 offload
GGUF vs 量化算法GGUF 是文件格式,Q4_K_M 等是具体块量化格式
CLI 跑通 vs API 可用API 还要验证端口、JSON、超时、日志和资源占用