长上下文技术深度解析:从128K到百万Token的突破之路

m
marvis

一、为什么需要长上下文

许多实际场景需要模型处理超长输入:整本书的分析大型代码库理解长对话历史保持多文档综合问答。传统Transformer的注意力机制复杂度是O(N²),处理长序列时显存和计算成本急剧增长。长上下文技术的核心就是在保持模型能力的前提下突破长度限制

二、核心技术路线

  • 位置编码优化:RoPE(旋转位置编码)通过频率调整支持外推;ALiBi通过注意力偏置实现零样本长度外推;YaRN通过插值策略扩展预训练长度
  • 稀疏注意力:Longformer、BigBird使用局部窗口+全局Token的稀疏模式,将复杂度降至O(N);FlashAttention通过IO感知优化,大幅降低显存占用
  • KV缓存压缩:Multi-Query Attention(MQA)和Grouped-Query Attention(GQA)通过共享KV投影,减少KV缓存大小,是长上下文推理的标配

三、主流模型长上下文方案

模型上下文长度技术方案
GPT-5128K-256KRoPE外推 + GQA + FlashAttention-3
Claude Opus 4200K特殊位置编码 + 稀疏注意力
Gemini 3.01M高效注意力近似算法
Kimi Chat200K+分段编码 + 稀疏注意力

四、长上下文的局限与未来

当前长上下文模型存在"Lost in the Middle"现象——模型对上下文开头和结尾的信息利用较好,中间部分的信息容易被忽略。解决方向:位置插值改进分层注意力机制检索增强与长上下文结合(RAG处理超长文档的更经济方案)。

相关阅读:Transformer核心原理 | RAG技术详解