一、多模态:从"看懂"到"理解"
早期的多模态模型只能做图像描述(Image Captioning)和视觉问答(VQA),本质上是"看图说话"。2024-2025年的新一代多模态大模型(GPT-4V、Gemini 2.0、Qwen-VL Plus、Claude Opus 4)已经能进行深度视觉推理——理解图表数据、分析代码截图、解读复杂场景。
二、技术架构演进
- 双塔架构(CLIP):视觉编码器和文本编码器分别训练,通过对比学习对齐表示空间。适合检索和零样本分类,但不擅长生成
- 桥接架构(BLIP-2、LLaVA):视觉编码器 + 可学习的"桥接层"(Q-Former或MLP) + LLM解码器。是当前主流方案
- 原生多模态(Gemini、GPT-5):从预训练阶段就融合多模态数据,实现真正的跨模态统一表示
三、应用场景全景
- 文档理解:OCR + 版面分析 + 表格理解,自动化处理发票、合同、报表
- 代码截图分析:理解代码截图并给出解释或Debug建议
- 科学图表解读:分析论文中的实验曲线、架构图、流程图
- 视频理解:从短视频到长视频的时序理解,视频问答和摘要
评论 (8)