核心速览
这篇 Paper 这是一篇关于多模态学习,特别是视觉-语言预训练(Vision-and-Language Pre-training, VLP)领域的研究。他提出了一个名为 ALBEF(Align Before Fuse) 的新型视觉 – 语言预训练框架。其核心塑像是在将文本和图像送入多模态编码器进行融合之前,先通过一个图像 – 对比损失(Iamge – Text Contrastive Loss, ITC)来对齐它们的单模态表示。此外,为了解决网络数据的噪声问题,论文还提出了一种名为“动量蒸馏”的自训练方法。
论文主要聚焦或致力于解决的问题包括:
- 传统的VLP方法直接融合未对齐的图文特征,导致跨模态交互学习困难。
- 依赖于物体检测器来提取区域特征,这不仅计算成本高,还需要昂贵的边界框标注。
- 网络图文数据对存在大量噪声,标准的预训练目标(如MLM)容易对噪声过拟合,影响模型泛化能力。
为此提出的解决方案中的亮点有:
- “先对齐后融合”范式:通过ITC损失明确地拉近了图文的单模态表示,为后续的多模态融合奠定了更好的基础。
- 动量蒸馏 (MoD):提出了一种新颖的自训练策略,利用模型的历史版本(动量模型)生成伪标签,有效缓解了数据噪声问题。
- 无检测器架构:采用ViT作为图像编码器,摆脱了对物体检测器的依赖,提升了推理效率。
架构理解

ALBEF 整体可以视为是一个三塔架构
- 图像编码器 (Image Encoder):采用一个12层的视觉Transformer(ViT-B/16),将输入图像编码为一系列图像块(patch)的嵌入表示,包括一个
[CLS]向量用于概括全局图像信息。 - 文本编码器 (Text Encoder):采用一个6层的Transformer(使用BERT-base的前6层初始化),将输入文本编码为词向量序列,同样包含一个
[CLS]向量。 - 多模态编码器 (Multimodal Encoder):采用另一个6层的Transformer(使用BERT-base的后6层初始化)。它接收文本编码器的输出,并通过交叉注意力(Cross-Attention)机制在每一层与图像编码器的输出进行交互,从而实现图文特征的深度融合。
这三塔之间,是论文的创新点的重要实现媒介之一 —— 联合对比损失 (ITC) 。ALBEF 不同于以往 ViT 模型直接将图像输入与文本输入得到的特征进行简单拼接后直接送入 Transformer 的做法,而是通过图像-文本对比损失 (ITC),强制图像编码器和文本编码器在各自的输出空间中就产生对齐。具体来说,它使得匹配的图文对的[CLS]向量在投影后的特征空间中相似度更高,不匹配的则更低。这极大地降低了后续多模态编码器学习跨模态交互的难度。
ITC的目标是学习一个对齐的图文单模态表示空间。其损失函数基于InfoNCE loss,对于一个批次内的图文对,模型需要将匹配的图像(或文本)与队列中的所有文本(或图像)进行比较,并最大化匹配对的相似度。其损失函数形式如下:
$$\mathcal{L}_{\text{itc}} = \frac{1}{2} \mathbb{E}_{(I,T) \sim D} \left[ H(\mathbf{y}^{\text{i2t}}(I), \mathbf{p}^{\text{i2t}}(I)) + H(\mathbf{y}^{\text{t2i}}(T), \mathbf{p}^{\text{t2i}}(T)) \right]$$
其中,$H$ 是交叉熵损失,$\mathbf{y}$ 是独热(one-hot)形式的真实标签,$\mathbf{p}$ 是模型预测的softmax归一化后的相似度概率。例如,图像到文本的相似度概率 $\mathbf{p}^{\text{i2t}}$ 计算方式为:
$$p^{\text{i2t}}_m(I) = \frac{\exp(s(I, T_m)/\tau)}{\sum_{k=1}^{M} \exp(s(I, T_k)/\tau)}$$
这里的 $s(I, T_m)$ 是图像 $I$ 与队列中第 $m$ 个文本 $T_m$ 的余弦相似度,$\tau$ 是一个可学习的温度系数。
通过 ICT 模型实现了对输入的粗粒度的全局对齐,接下来,两个输入的特征分别被送入多模态编码器进行细粒度的匹配判断。在这里,ALBEF 还巧妙的利用 ITC 计算出的对比相似度来进行难负例挖掘(Hard Negative Mining),即优先选择那些与图像在语义上很相似但实际不匹配的文本作为负样本,从而提升ITM任务的训练效率和模型辨别力。
此外,为了解决网络数据噪声较一般数据集更大的问题,ALBEF 还提出了动量蒸馏(MoD)的方法。它通过维护一个参数是主模型指数移动平均的动量模型来实现。在训练时,主模型(student模型)不仅要学习拟合真实的硬标签(one-hot label),还要学习拟合动量模型产生的软标签(pseudo-targets)。
以ITC为例,带有MoD的损失函数变为:
$$\mathcal{L}^{\text{mod}}_{\text{itc}} = (1-\alpha) \mathcal{L}_{\text{itc}} + \frac{\alpha}{2} \mathbb{E}_{(I,T) \sim D} \left[ \text{KL}(\mathbf{q}^{\text{i2t}}(I) \| \mathbf{p}^{\text{i2t}}(I)) + \text{KL}(\mathbf{q}^{\text{t2i}}(T) \| \mathbf{p}^{\text{t2i}}(T)) \right]$$
其中,$\mathbf{q}$ 是由动量模型计算出的软目标概率分布,$\mathbf{p}$ 是主模型计算的概率分布,$\text{KL}$ 是KL散度,$\alpha$ 是平衡两个损失的权重。这样做的好处是,如果噪声标签不合理,但动量模型(因为它更稳定,见过了更多数据)认为其他样本也同样合理,那么主模型在预测这些“合理”样本时受到的惩罚就会减小,从而提升了模型的鲁棒性和泛化能力。
Maybe Another View…
脱离架构,从更高的角度看,理论上论文其实是将 ALBEF 的训练目标统一到了互信息最大化的框架下。
- ITC 可以被看作是最大化图像(一个视角)和文本(另一个视角)之间的互信息。
- MLM 可以被看作是最大化被遮蔽的词元(一个视角)与其上下文(图像+未遮蔽的文本,另一个视角)之间的互信息。
- MoD 则被解释为一种数据增强,动量模型通过生成高质量的伪标签,创造了原数据中不存在的、语义上等价的新“视角”,从而鼓励主模型学习到对这些语义变换不变的表示。
潜在局限及未来展望
潜在局限 (Potential Limitations)
- 全局对齐的粒度问题:ALBEF的“对齐”主要发生在
[CLS]这个全局特征层面。虽然Grad-CAM等可视化结果表明模型学到了一定的局部对应关系,但这种对齐是隐式的。对于需要精确的、局部的、物体级别的图文对应的任务(如Referring Expression Comprehension),这种全局对齐可能不是最优的。 - 模型规模与数据依赖性:虽然是“无检测器”,但ALBEF的整体参数量并不小(ViT-B/16 + BERT-base),且实验结果表明,其性能从4M数据量提升到14M数据量有显著增长。这说明模型依然严重依赖于超大规模的预训练数据,这对于数据资源有限的研究者而言是一个挑战。
- 动量蒸馏的超参数:动量蒸馏中的权重α\alphaα作为一个关键超参数,在文中被设为固定的0.4。但在不同的数据集、不同的噪声水平下,这个最优值可能需要调整。一个固定的α\alphaα缺乏自适应性,可能会限制其在更复杂场景下的效果。
- 对复杂关系的隐式建模:对于图像中多个物体之间的复杂空间或交互关系,ALBEF通过注意力机制进行隐式建模。相比于一些引入场景图等显式结构化知识的模型,ALBEF在处理需要复杂组合推理的任务时可能存在理论上的天花板。
进一步深入研究的问题或建议
- 多粒度对齐 (Multi-Grained Alignment):未来的工作可以探索将“对齐”从全局
[CLS]向量扩展到更细的粒度。例如,设计词元到图像块(token-to-patch)级别的对比损失,从而实现显式的局部对齐,这可能对视觉定位和细粒度理解任务有直接的帮助。 - 自适应动量蒸馏 (Adaptive Momentum Distillation):研究如何让蒸馏权重α\alphaα能够动态调整。例如,可以根据训练的阶段、模型预测的置信度或对数据噪声水平的估计来自动调整α\alphaα值,使其更加智能和鲁棒。
- 架构效率探索 (Efficiency Exploration):虽然比基于检测器的模型高效,但仍有优化空间。可以探索更小的ViT和BERT变体,或者在编码器之间引入更多的参数共享机制,以在保持性能的同时进一步降低模型的计算和存储成本。
- “先对齐后融合”范式的泛化:将这一核心思想推广到其他多模态领域,例如视频-文本、音频-文本、甚至包含代码或表格数据的更复杂的多模态任务中,验证其通用性和有效性。
发表回复