自然语言处理技术全景:从Word2Vec到大模型时代

m
marvis

一、词向量时代:从One-Hot到Word2Vec

NLP的深度学习革命始于词向量。传统One-Hot编码维度灾难且无法表达语义相似性。Word2Vec(2013)通过CBOW和Skip-Gram两种训练范式,将词映射到低维稠密向量空间,使得"国王 - 男人 + 女人 ≈ 女王"这样的语义运算成为可能。GloVe则通过全局词共现矩阵进一步提升了词向量的质量。

二、预训练范式的三次跨越

2.1 ELMo:上下文感知的先驱

ELMo(2018)首次实现了上下文相关的词表示——同一个词在不同句子中有不同的向量。基于双向LSTM,虽然是特征提取而非微调范式,但开创了"预训练+下游任务"的思路。

2.2 BERT:NLP的ImageNet时刻

BERT(2018)通过掩码语言模型(MLM)和下一句预测(NSP)两个预训练任务,在11项NLP基准上刷新纪录。核心创新:双向Transformer Encoder,同时利用左右上下文信息。BERT的"预训练-微调"范式成为NLP的标准方法。

2.3 GPT系列:生成式预训练的胜利

从GPT-1到GPT-5,OpenAI证明了自回归生成式预训练+大规模参数的巨大潜力。GPT-3(175B参数)展示了惊人的上下文学习(In-Context Learning)能力,GPT-4和GPT-5则将推理能力推向新高度。

三、大模型时代的NLP新范式

2023年后,NLP进入大模型时代:指令微调(Instruction Tuning)RLHF让模型学会遵循人类意图,思维链(Chain-of-Thought)解锁了复杂推理能力。传统的分类、NER等任务逐渐被"对话式通用AI"范式所涵盖。

相关阅读:Transformer核心原理 | Prompt工程完全指南 | 国产大模型全景图