长上下文技术深度解析：从128K到百万Token的突破之路

一、为什么需要长上下文

许多实际场景需要模型处理超长输入：整本书的分析、大型代码库理解、长对话历史保持、多文档综合问答。传统Transformer的注意力机制复杂度是O(N²)，处理长序列时显存和计算成本急剧增长。长上下文技术的核心就是在保持模型能力的前提下突破长度限制。

位置编码优化：RoPE（旋转位置编码）通过频率调整支持外推；ALiBi通过注意力偏置实现零样本长度外推；YaRN通过插值策略扩展预训练长度
稀疏注意力：Longformer、BigBird使用局部窗口+全局Token的稀疏模式，将复杂度降至O(N)；FlashAttention通过IO感知优化，大幅降低显存占用
KV缓存压缩：Multi-Query Attention（MQA）和Grouped-Query Attention（GQA）通过共享KV投影，减少KV缓存大小，是长上下文推理的标配

当前长上下文模型存在"Lost in the Middle"现象——模型对上下文开头和结尾的信息利用较好，中间部分的信息容易被忽略。解决方向：位置插值改进、分层注意力机制、检索增强与长上下文结合（RAG处理超长文档的更经济方案）。