计算机视觉技术演进全景:CNN、ViT到多模态视觉大模型

m
marvis

一、CNN黄金时代(2012-2019)

计算机视觉的深度学习革命始于2012年。AlexNet在ImageNet上以15.3%的top-5错误率横扫传统方法,首次证明了深度CNN在大规模图像识别上的巨大潜力。此后,架构创新进入爆发期:

模型年份核心创新Top-5错误率
LeNet-51998卷积+池化+全连接基础架构-
AlexNet2012ReLU激活、Dropout、GPU训练15.3%
VGGNet2014统一3×3卷积,证明深度重要性7.3%
GoogLeNet/Inception2014多尺度并行卷积、1×1降维6.7%
ResNet2015残差连接 H(x)=F(x)+x3.57%
EfficientNet2019NAS搜索 + 深度/宽度/分辨率复合缩放1.0%

ResNet的残差连接是CNN时代最重要的架构创新。通过引入跳跃连接(Skip Connection),梯度可以直接流向前层,使152层网络的训练成为可能,3.57%的错误率首次超越人类水平

二、轻量化与移动端部署

随着AI向边缘设备迁移,轻量化架构成为刚需:

  • MobileNet系列:使用深度可分离卷积(Depthwise Separable Conv),将标准卷积拆分为逐通道卷积+逐点卷积,计算量降低8-9倍,精度损失极小
  • ShuffleNet:引入通道混洗(Channel Shuffle)解决分组卷积的信息流通问题
  • RepVGG:训练时多分支、推理时融合为单路直筒结构,兼具精度和速度

三、Vision Transformer(ViT)的革命

2020年,Google提出Vision Transformer(ViT),将NLP领域的Transformer架构引入CV。核心思路:将图像分割为16×16的Patch序列,每个Patch线性映射为Embedding,加上位置编码后送入标准Transformer Encoder。

关键发现:ViT在大规模预训练(JFT-300M数据集)后超越CNN,但在中小数据集上不如CNN——这表明Transformer的归纳偏置更弱,需要更多数据来学习。数据不足时,CNN的平移不变性和局部感受野是先天的优势。

四、Swin Transformer与层次化视觉架构

ViT的缺陷在于所有层使用固定分辨率,不适用于密集预测任务(检测、分割)。Swin Transformer通过两大创新解决了这个问题:

  • Shifted Window Attention:在局部窗口内计算自注意力,通过窗口偏移实现跨窗口信息交互,计算复杂度从O(N²)降至O(N)
  • 层次化结构:像CNN一样逐层下采样,生成多尺度特征图,天然适配FPN等检测/分割头

Swin在COCO目标检测和ADE20K语义分割上同时达到SOTA,证明了Transformer在CV全任务上的统治力。

五、多模态视觉大模型的崛起

2024-2025年,视觉-语言大模型(VLM)成为新焦点。GPT-4V、Gemini、Qwen-VL等模型将视觉编码器与大语言模型融合,实现了从"看图识字"到"视觉推理"的质变。核心技术栈:视觉编码器(如ViT)+ 跨模态对齐(如Q-Former)+ LLM解码器

未来趋势:从"视觉理解"走向"视觉交互",从"看图说话"走向"视觉Agent"——模型不仅能看懂图像,还能基于视觉信息执行操作。

相关阅读:深度学习图像处理最佳实践 | 多模态大模型技术全景 | 多模态AI范式跃迁