一、GAN的核心思想:博弈论视角
生成对抗网络(GAN)由Ian Goodfellow于2014年提出,核心是生成器(Generator)与判别器(Discriminator)的二人零和博弈。生成器试图生成逼真样本欺骗判别器,判别器试图区分真实样本和生成样本。两者交替训练,最终达到纳什均衡——生成器能产生以假乱真的数据。
二、经典变体与创新
- DCGAN:将CNN引入GAN,使用批归一化和转置卷积,是GAN工程化的里程碑
- StyleGAN系列:引入风格向量控制生成图像的属性,实现精细的属性编辑和高质量人脸生成
- CycleGAN:无需配对数据即可实现图像风格迁移(如照片转梵高画风),核心创新是循环一致性损失
- Pix2Pix:使用条件GAN + L1损失实现配对图像的跨域转换
三、训练稳定性优化技巧
- WGAN/WGAN-GP:使用Wasserstein距离替代JS散度,根本性改善训练稳定性
- Spectral Normalization:约束判别器的Lipschitz常数,防止梯度爆炸
- 渐进式训练(ProGAN):从低分辨率开始逐步增加层数,大幅提升高分辨率生成质量
- 数据增强:ADA(Adaptive Data Augmentation)在数据量不足时自动调节增强强度
四、工业应用场景
- 数据增强:在医疗影像、缺陷检测等样本稀缺场景,GAN生成补充训练数据
- 图像超分辨率:SRGAN/ESRGAN将低分辨率图像重建为高清图像
- 图像修复:去除水印、填充缺失区域
相关阅读:深度学习图像处理最佳实践 | 计算机视觉技术演进
评论 (56)