EFV++ – Retain, Blend, and Exchange

作者：

Vermosh

在

RGB-Event Multimodal

整体把握

这篇 Paper 专注于 事件流下的模式识别，重点解决了现有模型的单一事件表示、次优事件融合以及读取机制相对孱弱而导致的性能瓶颈，创新性的提出了名为 EFV++ 架构的新型双流融合模型。

贯穿全文的核心思路可以总结为：如何有效融合来自不同事件表示（本文中为二维图像和三维体素）的特征，同时最大化保留有效信息并剔除冗余信息。

在这一思想下，论文做出了三方面的主要贡献：

多视角表示与融合：同时利用 Transformer 和图神经网络（GNN）分别处理事件图像（空间信息）和事件体素（立体结构信息）。
质量感知的RBE融合模块：提出“保留、融合、交换”（Retain, Blend, Exchange）策略。它根据特征质量对双流特征进行差异化处理：保留高质量特征，融合中等质量特征，交换（替换）低质量特征。
混合交互读取机制：设计了一种基于GRU的新型读取（Readout）机制，通过对不同特征排列组合的融合，来增强最终分类特征的多样性和表达能力。

架构理解

从架构图中可以很容易地看出，模型整体采用的是单事件的双流输入。

事件图像 (Event Images)：聚合一段时间内的事件，形成类似视频帧的序列，用于保留空间纹理信息。
事件体素 (Event Voxels)：将事件映射到三维时空网格中，用于保留三维时空结构和稀疏性。

而针对这两种架构， Paper 也分别采用了不同的处理策略：

Event Image 采用ResNet(作为StemNet) + ST-Transformer (时空注意力)学习全局时空特征
Event Voxels 则应用基于高斯混合模型(GMM)的图卷积网络(GNN)学习图特征，并通过平均池化获得全局表示。

这是一个理解相当深刻的设计。Event Image 是通过在一段时间窗口内将事件累积到2D像素网格上生成的。类似传统帧相机输出的图像，区别在于像素值可能表示一段时间内的事件数量、平均亮度变化或最后一次事件的极性等。这种累积过程使得原本稀疏的事件在2D空间上形成连续的、可被人类视觉感知的“图像”。因此图像擅长捕捉空间上的局部纹理、边缘、形状等信息。

那么显然，对于一个兼具事件窗口及特征变化的连续序列，采用Transformer的自注意力机制来捕捉这些tokens之间任意距离的全局依赖关系是很合理的，同时为了弥补 Transformer 自身的偏置归纳缺乏问题，模型在使用 Transformer 之前预先使用轻量的 ResNet 18 作为 StemNet 。这相当于由 CNN 进行每张图像的特征处理，然后将每张的特征汇总后交由 Transformer 进行全局窗口内的特征依赖识别。这不仅综合了 CNN 的局部处理能力和 Transformer 的全局总结能力，更避免了复杂 CNN 的高额计算量以及多输入Token Transformer 的计算量(特征提取相当于对 Token 降数提质)。

而 Event Voxels 是将事件数据在 (x, y, t) 三维时空中进行离散化和聚合，形成一个3D网格。每个体素 (voxel) 可能包含该时空区域内事件的数量或特性。这里的 key point 是 (x, y, t) ，它们共同构成了体素的坐标。

显然坐标是对位置的直接表述，所以 Voxels 显式包含了空间信息；同时由于事件流在大部分情况下的短时连续长时稀疏特性，绝大多数体素是空的或只有少量事件，这使得事件体素数据本质上是稀疏的。

那么针对稀疏数据，很容易就很想到图处理，模型在这对体素进行了 Top-K 采样来保留主要信息，这相当于对数据做了一轮筛选，进一步加剧了数据的非结构化。所以正如论文中所说：

Connect the nearby nodes using edges to build a voxel graph … Euclidean distance is below a threshold R

GNN可以有效地利用体素之间的几何邻近关系和拓扑结构来建模，在有连接的节点（即非空或被选中的体素）之间进行计算，忽略大量空体素，从而高效地处理数据。

当然这里具体是基于 GMM 的 GNN，为什么在这高斯混合一下？因为传统的 GNN 可能对所有邻居一视同仁或者只用一个简单的聚合函数。但 GMM-based GNN 可以根据邻居节点与中心节点之间的相对位置、距离、角度等几何关系，学习更复杂的、位置敏感的聚合权重。这使得GNN能够更好地捕捉事件体素在三维空间中的精细结构和几何特征。

交互通道 – Quality-aware RBE Module

这个模块是实现“差异化融合”的关键，其核心理念是：并非所有特征都具有同等的重要性或质量，应该根据特征的质量来决定如何对其进行融合处理。

其本质是对 Transformer 输出的一种 Dropout 。假设我们已经从 Event Image 的 Transformer 子网络和 Event Voxel 的 GNN 子网络中分别得到了两种模态的特征表示：$X_F$ (来自 Event Image) 和 $X_G$ (来自 Event Voxel)，那么 RBE 将对其做出如下的差异化处理：

特征质量评估
- 对于每个分支（Event Image 和 Event Voxel），论文首先将其特征送入自注意力层 (Self-Attention Layers)，从而得到每个特征元素对整体表示的贡献度或者重要性。
- 接着，注意力矩阵被转换为 CLS 权重 ($CLS_F$ 和 $CLS_G$)。这个过程论文中似乎没明确提及处理细节，不过问了一下 Gemini，它表示这一过程通常是通过对注意力矩阵的每一行（代表一个特征 token 与所有其他 token 的关注程度）进行汇总（如求和、求平均或直接使用一个可学习的线性层）来得到一个实数值。这个实数值就被视为衡量该特征 token 质量的指标。
- 于是我们得到了一个表征特征好坏的指标，高注意力权重意味着该特征对整体表示的贡献更大，因此被认为是高质量特征。
差异化处理（Retain, Blend, Exchange）
- 在获得了每个特征 token 的 $CLS$ 权重后，RBE 模块引入了两个预设的阈值 $\theta_1$ 和 $\theta_2$ ($\theta_1 > \theta_2$) 来将特征划分为三个等级：高质量、中等质量和低质量。
  - 高质量特征直接保留在所属分支
  - 中等质量特征会与“另一个分支”的对应特征进行融合，因为模型认为它们既非不可替代也非完全冗余，那么和另一个特征进行融合互补(如果成功，不是互补下一轮可能就呈现低质量然后拜拜)，即加权求和、拼接后通过线性层、或者通过一个小型的注意力模块进行交互。
  - 低质量特征会被“另一个分支的平均特征”直接替换掉，不过论文没指“平均特征”的具体表示，Maybe 是另一分支的池化结果。

那么在完成这两步后，原来来自两个分支的特征 $X_F$ 和 $X_G$ 就被转化为了经过质量感知增强的特征 $\bar{X}_F$ 和 $\bar{X}_G$。这两个增强后的特征随后会和瓶颈特征一起被送入后续的融合 Transformer 和混合交互读取机制。

可以说 RBE 这个模块的设计摆脱了传统融合方法（如简单拼接、求和平均）的“一刀切”模式，实现了特征层面的精细化、差异化交互；通过阈值实现了保留、融合和替换的充分利用，形成了模态之间的信息互补。

分支融合 – 混合交互读取机制 (Hybrid Interaction Readout Mechanism)

在RBE模块增强了双流特征后，如何将它们最终整合成一个分类向量，也是一个值得探索的问题。传统的做法是直接拼接，但模型在这给出的答案是 Bottleneck Feature (瓶颈特征)。

在深度学习中，“Bottleneck”（瓶颈）通常指模型中某个层或模块的输出维度远小于输入维度，或者说信息流通过一个狭窄的通道。它意味着：

信息压缩： 瓶颈结构强制模型学习一个更紧凑、更精炼的特征表示，迫使模型保留最重要的信息并丢弃冗余信息。
信息桥梁/中介： 在多模态融合中，瓶颈特征可以被看作是不同模态之间的高级抽象或共享概念的表示。它不直接属于任何一个模态，而是作为所有模态信息的汇聚点和共享上下文。

论文将 Bottleneck 表示为 $X_B$ ，它在这的主要作用包括：

中立的全局交互枢纽：Bottleneck 不直接从 Event Image 或 Event Voxel 中学习，而是被设计为一个可学习的一组初始化 token。当它和 $\bar{X}_F$, $\bar{X}_G$ 一起被送入一个融合 Transformer 时，这个瓶颈特征能够通过自注意力机制，与来自两个模态的所有特征进行全局交互。

就相当于是什么呢… 喜欢一个人会变成 Ta 的样子 (

那么通过这种交互，$X_B$ 能够吸收和提炼来自 $\bar{X}_F$ 和 $\bar{X}_G$ 的最重要的、跨模态共享的高阶语义信息。它不像 $X_F$ 和 $X_G$ 那样关注各自模态的细节，而是专注于模态无关的、更高层次的判别性特征，$X_B$ 提供了一个集成的视角，可以理解为是一个融合了两种模态精髓的压缩表示。

就像对 $\bar{X}_F$ 和 $\bar{X}_G$ 做了一个 Judge 分别取其精华，然后去其糟粕

它同时参与最终决策：在随后的混合交互读取机制中，$\bar{X}_F$, $\bar{X}_G$, 以及 $X_B$ 这三者被再次组合和序列化，然后输入 GRU。这表明 $X_B$ 不仅仅是在融合 Transformer 内部用于交互，其自身作为一个独立且重要的特征，也会参与到最终的分类特征构建中。它提供了模型对事件流的一个最核心、最抽象的理解。

在得到三特征后，模型最后采用了GRU (Gated Recurrent Unit) 进行最终融合。而在进入 GRU 之前，我们有三个关键的特征序列：

来自 Event Image 增强的特征 ($\bar{X}_F$)
来自 Event Voxel 增强的特征 ($\bar{X}_G$)
来自融合 Transformer 的 Bottleneck Feature ($\bar{X}_B$ 或其等价物，即经过融合 Transformer 后的瓶颈令牌)

这些特征虽然在融合 Transformer 中进行了交互，但它们最终是以不同的 token/段落形式存在的。 GRUs 的作用是将这些并行的、可能具有不同语义侧重点的特征，有序地“读取”或“处理” 成一个最终的、统一的序列表示。论文中提到“aggregate the three feature sequences into a fused feature $Z$ ”，这意味着 GRU 负责将它们整合成一个单一的、代表整个事件流的特征向量。

所以 GRU 在这里可以视为一种补充，进一步对这些已经高度抽象和融合的特征进行“时序精炼”，确保没有丢失任何重要的时间模式。

思考与展望

在深入理解该框架后，我们不妨来考虑架构存在的的一些潜在局限性和可能的拓展方向

潜在局限性
- 计算复杂度较高：该框架是一个“重量级”模型。它包括两个独立的骨干网络（Transformer和GNN）、多个注意力模块（RBE）、一个融合Transformer和一个GRU序列模型。这使得模型的训练和推理成本相当高，可能不适用于对延迟要求极高的实时应用场景。而论文在局限性分析部分也承认了这一点。
- 阈值的敏感性与自适应性：RBE模块中的两个关键阈值 $\theta_1$ 和 $\theta_2$ 是通过实验在验证集上确定的超参数。这意味着它们可能存在数据集依赖性，在面对新的、分布差异较大的数据时可能需要重新调整。我们或许可以考虑设计一种动态或自适应的阈值学习机制，让网络自行判断如何划分特征等级。
- “质量”的定义单一：论文使用自注意力权重作为衡量特征质量的唯一标准。这可能不是最优或最全面的定义。特征的质量也可以从其对最终分类任务的信息熵、判别力（如类内紧凑度、类间分离度） 等角度来衡量。探索更多元的质量评估标准可能会带来提升。
- 读取机制的解释性：混合交互读取机制虽然在实验上证明有效，但其内在工作原理的可解释性略显不足。为什么对特征进行全排列后输入GRU会有效？这更像是一种通过“暴力”组合来增强模型容量和数据拟合能力（Ensemble思想）的技巧。其背后的理论支撑有待更深入的探究。
拓展方向
- 模型轻量化与知识蒸馏：作者在未来工作亦有提及，一个非常有价值的方向是模型压缩。可以将这个复杂的EFV++作为“教师网络”，通过知识蒸馏技术，将其学到的高质量融合知识迁移到一个更轻量级的单流或简化双流“学生网络”中，以实现精度和效率的平衡。
- 泛化到其他多模态任务：RBE模块这种基于质量的差异化融合思想具有很好的普适性。它可以被推广到其他多模态融合任务中，如RGB-事件融合、文本-图像融合等。验证其在更广泛场景下的有效性或许是一个有趣的研究方向。

以上

EFV++

分类导航

EFV++ – Retain, Blend, and Exchange

整体把握

架构理解

交互通道 – Quality-aware RBE Module

分支融合 – 混合交互读取机制 (Hybrid Interaction Readout Mechanism)

思考与展望

评论

发表回复取消回复

更多文章

–

VLMo – Vision-Language Pre-trained Model

CS61B – Lab 07 RBTree

ALBEF – Align Before Fuse

EFV++ – Retain, Blend, and Exchange

整体把握

架构理解

交互通道 – Quality-aware RBE Module

分支融合 – 混合交互读取机制 (Hybrid Interaction Readout Mechanism)

思考与展望

评论

发表回复 取消回复

更多文章

–

VLMo – Vision-Language Pre-trained Model

CS61B – Lab 07 RBTree

ALBEF – Align Before Fuse

发表回复取消回复