一、推理优化的核心目标
大模型部署面临三大挑战:高延迟(自回归生成逐Token计算)、高显存占用(模型参数+KV缓存)、高成本(每次推理消耗大量GPU资源)。推理优化技术围绕降低延迟、减少显存、提升吞吐量三大目标展开。
二、量化技术详解
| 方法 | 精度 | 质量损失 | 速度提升 |
|---|---|---|---|
| INT8量化(PTQ) | 8bit | 极小(<1%) | 2-3x |
| GPTQ | 4bit | 小(1-3%) | 3-4x |
| AWQ | 4bit | 极小(<1%) | 3-4x |
| FP8推理 | 8bit浮点 | 几乎无损 | 1.5-2x |
AWQ(Activation-aware Weight Quantization)是当前最优的4bit量化方法——它保护大激活值对应的权重,在极低比特下保持模型质量。
三、KV缓存优化
自回归生成时,每个Token的Key/Value向量需要缓存以供后续Token使用,显存占用随序列长度线性增长。PagedAttention(vLLM框架的核心)借鉴操作系统的虚拟内存思想,将KV缓存分页管理,消除内存碎片,吞吐量提升2-4倍。
四、投机解码(Speculative Decoding)
核心思路:用小模型快速生成多个候选Token,再用大模型并行验证,接受所有正确的候选。在质量无损的前提下,推理速度提升2-3倍。是2025年推理加速最热门的方向之一。
评论 (1)