一、CNN黄金时代(2012-2019)
计算机视觉的深度学习革命始于2012年。AlexNet在ImageNet上以15.3%的top-5错误率横扫传统方法,首次证明了深度CNN在大规模图像识别上的巨大潜力。此后,架构创新进入爆发期:
| 模型 | 年份 | 核心创新 | Top-5错误率 |
|---|---|---|---|
| LeNet-5 | 1998 | 卷积+池化+全连接基础架构 | - |
| AlexNet | 2012 | ReLU激活、Dropout、GPU训练 | 15.3% |
| VGGNet | 2014 | 统一3×3卷积,证明深度重要性 | 7.3% |
| GoogLeNet/Inception | 2014 | 多尺度并行卷积、1×1降维 | 6.7% |
| ResNet | 2015 | 残差连接 H(x)=F(x)+x | 3.57% |
| EfficientNet | 2019 | NAS搜索 + 深度/宽度/分辨率复合缩放 | 1.0% |
ResNet的残差连接是CNN时代最重要的架构创新。通过引入跳跃连接(Skip Connection),梯度可以直接流向前层,使152层网络的训练成为可能,3.57%的错误率首次超越人类水平。
二、轻量化与移动端部署
随着AI向边缘设备迁移,轻量化架构成为刚需:
- MobileNet系列:使用深度可分离卷积(Depthwise Separable Conv),将标准卷积拆分为逐通道卷积+逐点卷积,计算量降低8-9倍,精度损失极小
- ShuffleNet:引入通道混洗(Channel Shuffle)解决分组卷积的信息流通问题
- RepVGG:训练时多分支、推理时融合为单路直筒结构,兼具精度和速度
三、Vision Transformer(ViT)的革命
2020年,Google提出Vision Transformer(ViT),将NLP领域的Transformer架构引入CV。核心思路:将图像分割为16×16的Patch序列,每个Patch线性映射为Embedding,加上位置编码后送入标准Transformer Encoder。
关键发现:ViT在大规模预训练(JFT-300M数据集)后超越CNN,但在中小数据集上不如CNN——这表明Transformer的归纳偏置更弱,需要更多数据来学习。数据不足时,CNN的平移不变性和局部感受野是先天的优势。
四、Swin Transformer与层次化视觉架构
ViT的缺陷在于所有层使用固定分辨率,不适用于密集预测任务(检测、分割)。Swin Transformer通过两大创新解决了这个问题:
- Shifted Window Attention:在局部窗口内计算自注意力,通过窗口偏移实现跨窗口信息交互,计算复杂度从O(N²)降至O(N)
- 层次化结构:像CNN一样逐层下采样,生成多尺度特征图,天然适配FPN等检测/分割头
Swin在COCO目标检测和ADE20K语义分割上同时达到SOTA,证明了Transformer在CV全任务上的统治力。
五、多模态视觉大模型的崛起
2024-2025年,视觉-语言大模型(VLM)成为新焦点。GPT-4V、Gemini、Qwen-VL等模型将视觉编码器与大语言模型融合,实现了从"看图识字"到"视觉推理"的质变。核心技术栈:视觉编码器(如ViT)+ 跨模态对齐(如Q-Former)+ LLM解码器。
未来趋势:从"视觉理解"走向"视觉交互",从"看图说话"走向"视觉Agent"——模型不仅能看懂图像,还能基于视觉信息执行操作。
相关阅读:深度学习图像处理最佳实践 | 多模态大模型技术全景 | 多模态AI范式跃迁
评论 (28)