自然语言处理技术全景：从Word2Vec到大模型时代

一、词向量时代：从One-Hot到Word2Vec

NLP的深度学习革命始于词向量。传统One-Hot编码维度灾难且无法表达语义相似性。Word2Vec（2013）通过CBOW和Skip-Gram两种训练范式，将词映射到低维稠密向量空间，使得"国王 - 男人 + 女人 ≈ 女王"这样的语义运算成为可能。GloVe则通过全局词共现矩阵进一步提升了词向量的质量。

二、预训练范式的三次跨越

2.1 ELMo：上下文感知的先驱

ELMo（2018）首次实现了上下文相关的词表示——同一个词在不同句子中有不同的向量。基于双向LSTM，虽然是特征提取而非微调范式，但开创了"预训练+下游任务"的思路。

2.2 BERT：NLP的ImageNet时刻

BERT（2018）通过掩码语言模型（MLM）和下一句预测（NSP）两个预训练任务，在11项NLP基准上刷新纪录。核心创新：双向Transformer Encoder，同时利用左右上下文信息。BERT的"预训练-微调"范式成为NLP的标准方法。

2.3 GPT系列：生成式预训练的胜利

从GPT-1到GPT-5，OpenAI证明了自回归生成式预训练+大规模参数的巨大潜力。GPT-3（175B参数）展示了惊人的上下文学习（In-Context Learning）能力，GPT-4和GPT-5则将推理能力推向新高度。

三、大模型时代的NLP新范式

2023年后，NLP进入大模型时代：指令微调（Instruction Tuning）和RLHF让模型学会遵循人类意图，思维链（Chain-of-Thought）解锁了复杂推理能力。传统的分类、NER等任务逐渐被"对话式通用AI"范式所涵盖。