核心速览
这篇 Paper 提出了一种名为 VLMo 的统一视觉 – 语言预训练模型。其核心目标是解决 VLP 领域的两种困境:
- 双编码器在图文检索任务上高效但模态间交互过浅;
- 融合编码器在分类任务上表现优异,但检索时因为计算方式而效率极其低下
VLMo 通过提出一种名为 MoME(Mixture of Modality Experts,融合专家) 的 Transformer 架构,巧妙地通过 FFN 同一了上述两种优势;同时,作为预训练模型,VLMo 本身可以通过微调来适应不同的下游任务;在论文中还提出了 分阶段预训练 的训练策略,有效利用了单模态数据训练多模态模型,提升了模型的泛化能力。
架构组成

VLMO 的核心是 MOME Transformer,它对标准的 Transformer 模块进行了改造。一个标准的 Transformer Block 包含一个多头自注意力层(Multi-Head Self-Attention, MSA)和一个前馈神经网络(Feed-Forward Network, FFN)。MOME Transformer 的关键改动在于用一个“模态专家混合”(MoME-FFN)模块替换了原有的 FFN。
其基本组成如下:
- 共享的多头自注意力层 (Shared MSA):所有模态(图像、文本、图文对)的输入 token 序列都通过同一个自注意力模块。这个共享机制是实现跨模态信息对齐与融合的基础。
- 模态专家混合前馈网络 (MoME-FFN):这是 VLMO 的架构亮点。它包含一个专家池,由三个独立的、模态特定的 FFN 组成:
- 视觉专家 (Vision Expert, V-FFN):专门处理图像相关的 token。
- 语言专家 (Language Expert, L-FFN):专门处理文本相关的 token。
- 视觉-语言专家 (Vision-Language Expert, VL-FFN):专门处理需要深度跨模态融合的 token。
在模型的前几层,当处理图文对时,图像 token 会被路由到 V-FFN,文本 token 会被路由到 L-FFN。在模型的顶层,为了促进更深度的融合,所有的 token(无论来自图像还是文本)都会被路由到 VL-FFN。这种设计使得模型既能学习特定模态的知识,又能进行深度的跨模态融合。
这是 VLMO 最大的亮点。通过 MOME 架构,同一个模型可以灵活扮演不同角色。在进行图文检索时,图像和文本可以分别通过 V-FFN 和 L-FFN 路径进行独立编码(形成双编码器),速度快;在进行 VQA 等分类任务时,图文 token 可以在共享 MSA 和顶层 VL-FFN 中进行深度交互(形成融合编码器),效果好。
此外,这里有一个细节,对于 ImageOnlyData,MoME开放了 V-FFN和 Transformer,但对于 TextOnlyData却只开放 L-FFN,冻结了 Transformer。
这是一种不对称的处理,作者在这里做了一个关键的假设和区分:
- 前馈网络 (Feed-Forward Network, FFN):在 Transformer block 中,FFN 作用于每一个 token 的表示上,进行非线性的特征变换。我们可以把它理解为一个内容处理器或知识库。它的任务是深入理解和提炼单个 token所携带的语义信息。因此,处理图像 patch 的 FFN (V-FFN) 和处理文本 token 的 FFN (L-FFN) 需要具备的“领域知识”是完全不同的。
- 多头自注意力 (Multi-Head Self-Attention, MSA):它的核心功能是计算序列中各个 token 之间的关系权重,捕捉依赖关系和结构信息。作者认为,这种“在一个序列中寻找重点并整合信息”的能力是通用的 (general-purpose)。无论这个序列是来自被展平的图像块 (image patches),还是来自文本的词元 (word tokens),其底层的计算逻辑——如何根据 query, key, value 来分配注意力——是相似的。
这种不对称的设计是一种知识迁移和能力构建策略,它最大限度地重用了在单一模态上学到的通用能力,同时有效防止了在多模态学习初级阶段可能出现的灾难性遗忘 (catastrophic forgetting) 问题。
以上
发表回复