ViLT – Vision-and-Language Transformer Without Convolution or Region Supervision

作者：

在

核心速览

这篇 Paper 提出了一种名为 Vision-and-Language Transformer (ViLT) 的新型多模态预训练模型。其核心主旨在于通过大幅简化视觉输入处理过程，彻底移除传统VLP模型中常用的卷积神经网络（CNN）和区域监督（如目标检测器），从而实现更高效、更快速的视觉-语言特征整合，同时保持或提高下游任务的性能。

ViLT 本质上属于视觉-语言预训练（Vision-and-language Pre-training, VLP）领域，具体而言，它探索了如何构建一个更轻量、更统一的Transformer架构，用于处理图像和文本这两种模态，并应用于各种下游的视觉-语言任务。

在这篇论文提出时，VLP 模型在处理视觉输入时存在以下问题：

效率/速度问题： 传统的视觉特征提取过程（如使用目标检测器或深度CNN骨干网络）计算成本高昂，且通常占多模态交互步骤的大部分计算量，导致推理速度慢。
表达能力受限问题： 视觉嵌入器的表达能力及其预定义的视觉词汇表会限制模型的整体表达能力。某些视觉嵌入器依赖于区域监督（如目标检测），其性能上限受限于检测器本身及其预训练数据的视觉概念。

针对上述问题 ViLT 的架构针对性的给出了解决方案，这同样也是架构中的相关亮点：

极简架构： ViLT是迄今为止视觉-语言模型中最简单的架构之一，它将视觉特征的提取和处理任务委托给Transformer模块本身，而非单独的深度视觉嵌入器。这使得模型在设计上就具备了显著的运行时和参数效率。
无卷积或区域监督： 首次在不使用区域特征或深度CNN视觉嵌入器的情况下，在视觉-语言任务上取得了具有竞争力的性能。这打破了传统VLP模型对复杂视觉前端的依赖。
新颖的训练策略： 首次实证表明，在VLP训练方案中应用全词掩码（Whole Word Masking）和图像增强（Image Augmentations）这些在先前VLP模型中未被探索的技术，能够进一步提升下游任务的性能。
速度提升： ViLT在推理速度上比使用区域特征的VLP模型快数十倍，比使用网格特征的模型至少快四倍，同时保持了相当或更好的下游任务性能。

架构理解

ViLT模型的核心思路在于摒弃了传统VLP模型对复杂视觉前端（如Faster R-CNN等目标检测器或ResNet等深度CNN骨干网络）的依赖，转而采用与文本输入处理方式类似的“浅层、无卷积”的视觉嵌入方案，并将视觉和语言的模态交互主要集中在一个统一的Transformer编码器中。

这一点在其架构图中非常明显：

ViLT Architecture 图源 – 论文 Figure 3 : Model overview.

ViLT 的输入简化夸张到了什么程度呢，它甚至只有一个 Embedding 层(针对文本)和一个 Linear Projection 层(源于 ViT，针对 Image)

简化了的结构带来的效果是极其显著的

可以看出其针对监督数据集的响应速度从传统模型的 900 ms 骤降至 15 ms 左右。

单流多模态 Transformer 交互

VLP模型在模态交互上分为单流（拼接后统一处理）和双流（分流处理，通过交叉注意力交互）两种。

ViLT 则采用单流 Transformer 编码器，将经过线性投影和位置编码后的视觉嵌入序列 $\bar{v}$ 和文本嵌入序列 $\bar{t}$（通过词嵌入和位置嵌入得到）与各自的模态类型嵌入（$v_{\text{type}}, t_{\text{type}}$）相加，然后拼接成一个统一的输入序列 $z_0$。这个拼接后的序列随后被送入一个标准的Transformer编码器进行多层交互。

同时为了减弱可能存在的简化的视觉输入带来的负面影响，ViLT的Transformer权重不是从预训练的BERT初始化，而是从预训练的Vision Transformer (ViT-B/32) 初始化。这使得交互层能够有效地处理视觉特征，弥补了缺乏深度视觉嵌入器的不足。

针对目标

ViLT 的目标主要包括：

Image Text Matching (ITM)：判断图像和文本对是否匹配。与传统的ITM不同，ViLT引入了Word Patch Alignment (WPA) 辅助目标，使用最优传输（Optimal Transport, OT）的IPOT方法计算文本子集 $z_D|_t$ 和视觉子集 $z_D|_v$ 之间的对齐分数，并将其近似Wasserstein距离加到ITM损失中，以促进跨模态的细粒度对齐。
Masked Language Modeling (MLM)： 预测被掩盖的文本词元。

潜在局限与拓展方向

ViLT作为一种极简且高效的VLP模型，虽然取得了令人瞩目的成就，但论文中也明确指出了一些潜在的局限性和未来研究方向。

潜在局限

VQA任务性能： 论文提到， ViLT 在 VQAv2 任务上的表现略逊于其他配备重型视觉嵌入器的 VLP 模型。作者推测，这可能是因为 VQA 任务通常涉及对图像中特定对象的提问，而目标检测器生成的“分离式对象表示”可能更利于 VQA 任务的训练。ViLT 的 patch-based 视觉嵌入可能在捕获精细的对象级信息方面不够直接。
Masked Patch Prediction (MPP) 的有效性： 论文实验表明，简单的图像块掩码预测（Masked Patch Prediction, MPP）目标对下游任务性能没有贡献（见表5）。这与传统的基于区域的 VLP 模型中 Masked Region Modeling (MRM) 的成功形成鲜明对比。这表明对于无卷积、无区域监督的视觉嵌入器，需要更复杂、更精巧的视觉模态掩码目标来促进学习。
可伸缩性与数据稀缺性： 论文指出，尽管 ViLT 家族可以通过训练更大的模型（如 ViLT-L、ViLT-H ）来提高性能，但目前对齐的视觉-语言数据集仍然稀缺，限制了更大规模 ViLT 模型的训练和探索。
图像增强策略的进一步优化： 虽然 RandAugment 被证明有效，但论文也指出，对比学习领域的一些研究（如 Chen et al., 2020 ）表明，不同的增强策略（例如高斯模糊）可能带来额外的性能提升。ViLT中使用的增强策略可能还有进一步优化的空间。
对微小或分散对象的处理： 移除卷积和区域监督可能使模型在处理图像中非常小或高度分散的关键对象时面临挑战，特别是在像 NLVR2 这样需要细致视觉推理的任务中。虽然整体性能具有竞争力，但在这些特定场景下的鲁棒性仍需进一步探究。、

拓展方向

更复杂的视觉模态掩码目标：论文中提及简单的 MPP 其实未能奏效，那么如何设计一种有效的、无区域监督的视觉掩码目标，以更好地利用图像信息并促进Transformer内部的视觉特征学习？
针对VQA任务的特定优化；
大规模预训练数据集的构建：对齐的视觉-语言数据集的稀缺其实限制了模型的可伸缩性，那么我们能否利用弱监督或自监督方法，从海量非对齐或弱对齐的数据中挖掘视觉-语言对应关系，以构建更大规模、更丰富多样性的预训练数据集，以支撑ViLT-L、ViLT-H等大型模型的训练？

但想说的其实不止这些…

我倒是觉得，ViLT 论文中最大的理论贡献或许不在于模型本身，而在于它通过 Figure 2 提出的VLP模型分类学的框架。

这个分类学（Taxonomy）为我们理解和设计未来的视觉-语言模型提供了一个清晰的坐标系，并使得ViLT的“极简主义”设计理念得以升华。

这个图提供了一个四象限分类视角，划分的两轴是 “交互深度” 和 “模态处理”

从 Type a & b 出发..

Type a (VE > TE > MI, e.g., VSE++)：视觉嵌入重，文本嵌入轻，交互浅。

Type b (VE = TE > MI, e.g., CLIP)：视觉和文本嵌入均重（通常是单独的Transformer），但交互依然浅。

论文的实验结果（例如CLIP在NLVR2上的低性能）印证了一个核心观点：即使模态单独嵌入的表达能力（VE和TE）非常强大，如果模态间的交互（MI）是浅层的（例如点积或简单的MLP），模型也无法完成需要复杂推理的视觉-语言任务。换句话说，复杂的多模态协作推理比强大的单模态特征提取更难，也更重要。

也就是说。任何旨在解决复杂视觉-语言任务（如VQA、NLVR2）的模型，其设计必须包含一个深度、高计算量的模态交互模块（如多层Transformer），而非寄希望于强大的单模态编码器，从这个角度出发，从浅层交互（Type a, Type b）到深层交互（Type c, Type d）是一种必然趋势。

我们应该无脑堆架构吗..

Figure 2 还有一个作用是展示了 ViLT 对计算资源的分配观点的根本转变。

我们来看 Type c 和 d：

Type c (VE > MI > TE, e.g., UNITER, LXMERT)： 这是ViLT之前的黄金标准。计算资源主要投入到视觉特征提取（VE） 和 模态交互（MI） 中，其中VE通常占据主导。这种范式被ViLT批评为效率低下，因为特征提取（如Faster R-CNN）耗时巨大。
Type d (MI > VE = TE, e.g., ViLT)： ViLT的创新点。它大幅削减了VE的计算量，使其与TE（文本嵌入）处于同一轻量级水平，并将绝大部分计算资源集中到了模态交互（MI） 这一单一的、深层的Transformer中。

ViLT 或许证明了传统VLP模型不断使用更复杂的CNN骨干和目标检测器的操作可能是本末倒置的。ViLT证明了，只要模态交互 Transformer 足够强大，它不仅能完成跨模态融合，还能同时承担高质量视觉特征编码的责任。 这种转变使得模型在保持竞争力的同时，获得了巨大的速度提升。ViLT推崇的是“重交互，轻嵌入”的哲学。

那么如何进行交互呢…

ViLT明确提出了 $VE = TE$ 的概念。ViLT 通过使用 Patch Projection ，视觉输入被转换为与文本标记在性质上更为一致的序列化嵌入。这使得视觉和文本的“嵌入”（Embedding）阶段在计算上和概念上达到了近似的对等状态（$VE \approx TE$）。而当视觉和语言在输入端都以等长、等维度的序列化标记形式进入同一个Transformer时，模型能够更自然、更公平地对两种信息进行处理。这种统一性降低了模型设计的复杂性，并避免了过去由不同模态特征（如区域特征、网格特征）引起的复杂特征对齐问题。ViLT为实现真正“单流、统一”的视觉-语言模型提供了一个成功的范例。

分类导航

ViLT – Vision-and-Language Transformer Without Convolution or Region Supervision

核心速览

架构理解

单流多模态 Transformer 交互

针对目标

潜在局限与拓展方向

潜在局限

拓展方向

但想说的其实不止这些…

从 Type a & b 出发..

我们应该无脑堆架构吗..

那么如何进行交互呢…

评论

发表回复取消回复

更多文章

–

VLMo – Vision-Language Pre-trained Model

CS61B – Lab 07 RBTree

ALBEF – Align Before Fuse

ViLT – Vision-and-Language Transformer Without Convolution or Region Supervision

核心速览

架构理解

单流多模态 Transformer 交互

针对目标

潜在局限与拓展方向

潜在局限

拓展方向

但想说的其实不止这些…

从 Type a & b 出发..

我们应该无脑堆架构吗..

那么如何进行交互呢…

评论

发表回复 取消回复

更多文章

–

VLMo – Vision-Language Pre-trained Model

CS61B – Lab 07 RBTree

ALBEF – Align Before Fuse

发表回复取消回复