VLMo – Vision-Language Pre-trained Model

作者：

在

核心速览

这篇 Paper 提出了一种名为 VLMo 的统一视觉 – 语言预训练模型。其核心目标是解决 VLP 领域的两种困境：

双编码器在图文检索任务上高效但模态间交互过浅；
融合编码器在分类任务上表现优异，但检索时因为计算方式而效率极其低下

VLMo 通过提出一种名为 MoME(Mixture of Modality Experts,融合专家) 的 Transformer 架构，巧妙地通过 FFN 同一了上述两种优势；同时，作为预训练模型，VLMo 本身可以通过微调来适应不同的下游任务；在论文中还提出了分阶段预训练的训练策略，有效利用了单模态数据训练多模态模型，提升了模型的泛化能力。

架构组成

VLMO 的核心是 MOME Transformer，它对标准的 Transformer 模块进行了改造。一个标准的 Transformer Block 包含一个多头自注意力层（Multi-Head Self-Attention, MSA）和一个前馈神经网络（Feed-Forward Network, FFN）。MOME Transformer 的关键改动在于用一个“模态专家混合”（MoME-FFN）模块替换了原有的 FFN。

其基本组成如下：

共享的多头自注意力层 (Shared MSA)：所有模态（图像、文本、图文对）的输入 token 序列都通过同一个自注意力模块。这个共享机制是实现跨模态信息对齐与融合的基础。
模态专家混合前馈网络 (MoME-FFN)：这是 VLMO 的架构亮点。它包含一个专家池，由三个独立的、模态特定的 FFN 组成：
- 视觉专家 (Vision Expert, V-FFN)：专门处理图像相关的 token。
- 语言专家 (Language Expert, L-FFN)：专门处理文本相关的 token。
- 视觉-语言专家 (Vision-Language Expert, VL-FFN)：专门处理需要深度跨模态融合的 token。

在模型的前几层，当处理图文对时，图像 token 会被路由到 V-FFN，文本 token 会被路由到 L-FFN。在模型的顶层，为了促进更深度的融合，所有的 token（无论来自图像还是文本）都会被路由到 VL-FFN。这种设计使得模型既能学习特定模态的知识，又能进行深度的跨模态融合。

这是 VLMO 最大的亮点。通过 MOME 架构，同一个模型可以灵活扮演不同角色。在进行图文检索时，图像和文本可以分别通过 V-FFN 和 L-FFN 路径进行独立编码（形成双编码器），速度快；在进行 VQA 等分类任务时，图文 token 可以在共享 MSA 和顶层 VL-FFN 中进行深度交互（形成融合编码器），效果好。

此外，这里有一个细节，对于 ImageOnlyData，MoME开放了 V-FFN和 Transformer，但对于 TextOnlyData却只开放 L-FFN，冻结了 Transformer。

这是一种不对称的处理，作者在这里做了一个关键的假设和区分：

前馈网络 (Feed-Forward Network, FFN)：在 Transformer block 中，FFN 作用于每一个 token 的表示上，进行非线性的特征变换。我们可以把它理解为一个内容处理器或知识库。它的任务是深入理解和提炼单个 token所携带的语义信息。因此，处理图像 patch 的 FFN (V-FFN) 和处理文本 token 的 FFN (L-FFN) 需要具备的“领域知识”是完全不同的。
多头自注意力 (Multi-Head Self-Attention, MSA)：它的核心功能是计算序列中各个 token 之间的关系权重，捕捉依赖关系和结构信息。作者认为，这种“在一个序列中寻找重点并整合信息”的能力是通用的 (general-purpose)。无论这个序列是来自被展平的图像块 (image patches)，还是来自文本的词元 (word tokens)，其底层的计算逻辑——如何根据 query, key, value 来分配注意力——是相似的。

这种不对称的设计是一种知识迁移和能力构建策略，它最大限度地重用了在单一模态上学到的通用能力，同时有效防止了在多模态学习初级阶段可能出现的灾难性遗忘 (catastrophic forgetting) 问题。

以上

分类导航

VLMo – Vision-Language Pre-trained Model

核心速览

架构组成

评论

发表回复取消回复

更多文章

–