EFV++ – Retain, Blend, and Exchange

整体把握

这篇 Paper 专注于 事件流下的模式识别,重点解决了现有模型的单一事件表示、次优事件融合以及读取机制相对孱弱而导致的性能瓶颈,创新性的提出了名为 EFV++ 架构的新型双流融合模型。

贯穿全文的核心思路可以总结为:如何有效融合来自不同事件表示(本文中为二维图像和三维体素)的特征,同时最大化保留有效信息并剔除冗余信息。

在这一思想下,论文做出了三方面的主要贡献:

  1. 多视角表示与融合:同时利用 Transformer 和图神经网络(GNN)分别处理事件图像(空间信息)和事件体素(立体结构信息)。
  2. 质量感知的RBE融合模块:提出“保留、融合、交换”(Retain, Blend, Exchange)策略。它根据特征质量对双流特征进行差异化处理:保留高质量特征,融合中等质量特征,交换(替换)低质量特征。
  3. 混合交互读取机制:设计了一种基于GRU的新型读取(Readout)机制,通过对不同特征排列组合的融合,来增强最终分类特征的多样性和表达能力。

架构理解

EFV++ Architecture 图源:论文 Figure 2

从架构图中可以很容易地看出,模型整体采用的是单事件的双流输入。

  • 事件图像 (Event Images):聚合一段时间内的事件,形成类似视频帧的序列,用于保留空间纹理信息
  • 事件体素 (Event Voxels):将事件映射到三维时空网格中,用于保留三维时空结构和稀疏性。

而针对这两种架构, Paper 也分别采用了不同的处理策略:

  • Event Image 采用ResNet(作为StemNet) + ST-Transformer (时空注意力)学习全局时空特征
  • Event Voxels 则应用基于高斯混合模型(GMM)的图卷积网络(GNN)学习图特征,并通过平均池化获得全局表示。

这是一个理解相当深刻的设计。Event Image 是通过在一段时间窗口内将事件累积到2D像素网格上生成的。类似传统帧相机输出的图像,区别在于像素值可能表示一段时间内的事件数量、平均亮度变化或最后一次事件的极性等。 这种累积过程使得原本稀疏的事件在2D空间上形成连续的、可被人类视觉感知的“图像”。因此图像擅长捕捉空间上的局部纹理、边缘、形状等信息。

那么显然,对于一个兼具事件窗口及特征变化的连续序列,采用Transformer的自注意力机制来捕捉这些tokens之间任意距离的全局依赖关系是很合理的,同时为了弥补 Transformer 自身的偏置归纳缺乏问题,模型在使用 Transformer 之前预先使用轻量的 ResNet 18 作为 StemNet 。这相当于由 CNN 进行每张图像的特征处理,然后将每张的特征汇总后交由 Transformer 进行全局窗口内的特征依赖识别。这不仅综合了 CNN 的局部处理能力和 Transformer 的全局总结能力,更避免了复杂 CNN 的高额计算量以及多输入Token Transformer 的计算量(特征提取相当于对 Token 降数提质)。

而 Event Voxels 是将事件数据在 (x, y, t) 三维时空中进行离散化和聚合,形成一个3D网格。每个体素 (voxel) 可能包含该时空区域内事件的数量或特性。这里的 key point 是 (x, y, t) ,它们共同构成了体素的坐标。

显然坐标是对位置的直接表述,所以 Voxels 显式包含了空间信息;同时由于事件流在大部分情况下的短时连续长时稀疏特性,绝大多数体素是空的或只有少量事件,这使得事件体素数据本质上是稀疏的

那么针对稀疏数据,很容易就很想到图处理,模型在这对体素进行了 Top-K 采样来保留主要信息,这相当于对数据做了一轮筛选,进一步加剧了数据的非结构化。所以正如论文中所说:

Connect the nearby nodes using edges to build a voxel graphEuclidean distance is below a threshold R

GNN可以有效地利用体素之间的几何邻近关系和拓扑结构来建模,在有连接的节点(即非空或被选中的体素)之间进行计算,忽略大量空体素,从而高效地处理数据。

当然这里具体是基于 GMM 的 GNN,为什么在这高斯混合一下?因为传统的 GNN 可能对所有邻居一视同仁或者只用一个简单的聚合函数。但 GMM-based GNN 可以根据邻居节点与中心节点之间的相对位置、距离、角度等几何关系,学习更复杂的、位置敏感的聚合权重。这使得GNN能够更好地捕捉事件体素在三维空间中的精细结构和几何特征。

交互通道 – Quality-aware RBE Module

这个模块是实现“差异化融合”的关键,其核心理念是:并非所有特征都具有同等的重要性或质量,应该根据特征的质量来决定如何对其进行融合处理。

其本质是对 Transformer 输出的一种 Dropout 。假设我们已经从 Event Image 的 Transformer 子网络 和 Event Voxel 的 GNN 子网络 中分别得到了两种模态的特征表示:$X_F$ (来自 Event Image) 和 $X_G$ (来自 Event Voxel),那么 RBE 将对其做出如下的差异化处理:

  1. 特征质量评估
    • 对于每个分支(Event Image 和 Event Voxel),论文首先将其特征送入自注意力层 (Self-Attention Layers),从而得到每个特征元素对整体表示的贡献度或者重要性。
    • 接着,注意力矩阵被转换为 CLS 权重 ($CLS_F$ 和 $CLS_G$)。这个过程论文中似乎没明确提及处理细节,不过问了一下 Gemini,它表示这一过程通常是通过对注意力矩阵的每一行(代表一个特征 token 与所有其他 token 的关注程度)进行汇总(如求和、求平均或直接使用一个可学习的线性层)来得到一个实数值。这个实数值就被视为衡量该特征 token 质量的指标。
    • 于是我们得到了一个表征特征好坏的指标,高注意力权重意味着该特征对整体表示的贡献更大,因此被认为是高质量特征
  2. 差异化处理(Retain, Blend, Exchange)
    • 在获得了每个特征 token 的 $CLS$ 权重后,RBE 模块引入了两个预设的阈值 $\theta_1$ 和 $\theta_2$ ($\theta_1 > \theta_2$) 来将特征划分为三个等级:高质量、中等质量和低质量。
      • 高质量特征直接保留在所属分支
      • 中等质量特征会与“另一个分支”的对应特征进行融合,因为模型认为它们既非不可替代也非完全冗余,那么和另一个特征进行融合互补(如果成功,不是互补下一轮可能就呈现低质量然后拜拜),即加权求和、拼接后通过线性层、或者通过一个小型的注意力模块进行交互。
      • 低质量特征会被“另一个分支的平均特征”直接替换掉,不过论文没指“平均特征”的具体表示,Maybe 是另一分支的池化结果。

那么在完成这两步后,原来来自两个分支的特征 $X_F$ 和 $X_G$ 就被转化为了经过质量感知增强的特征 $\bar{X}_F$ 和 $\bar{X}_G$。这两个增强后的特征随后会和瓶颈特征一起被送入后续的融合 Transformer 和混合交互读取机制。

可以说 RBE 这个模块的设计摆脱了传统融合方法(如简单拼接、求和平均)的“一刀切”模式,实现了特征层面的精细化、差异化交互;通过阈值实现了保留、融合和替换的充分利用,形成了模态之间的信息互补。

分支融合 – 混合交互读取机制 (Hybrid Interaction Readout Mechanism)

在RBE模块增强了双流特征后,如何将它们最终整合成一个分类向量,也是一个值得探索的问题。传统的做法是直接拼接,但模型在这给出的答案是 Bottleneck Feature (瓶颈特征)

在深度学习中,“Bottleneck”(瓶颈)通常指模型中某个层或模块的输出维度远小于输入维度,或者说信息流通过一个狭窄的通道。它意味着:

  1. 信息压缩: 瓶颈结构强制模型学习一个更紧凑、更精炼的特征表示,迫使模型保留最重要的信息并丢弃冗余信息。
  2. 信息桥梁/中介: 在多模态融合中,瓶颈特征可以被看作是不同模态之间的高级抽象或共享概念的表示。它不直接属于任何一个模态,而是作为所有模态信息的汇聚点和共享上下文。

论文将 Bottleneck 表示为 $X_B$ ,它在这的主要作用包括:

  • 中立的全局交互枢纽:Bottleneck 不直接从 Event Image 或 Event Voxel 中学习,而是被设计为一个可学习的一组初始化 token。当它和 $\bar{X}_F$, $\bar{X}_G$ 一起被送入一个融合 Transformer 时,这个瓶颈特征能够通过自注意力机制,与来自两个模态的所有特征进行全局交互。

就相当于是什么呢… 喜欢一个人会变成 Ta 的样子 (

那么通过这种交互,$X_B$ 能够吸收和提炼来自 $\bar{X}_F$ 和 $\bar{X}_G$ 的最重要的、跨模态共享的高阶语义信息。它不像 $X_F$ 和 $X_G$ 那样关注各自模态的细节,而是专注于模态无关的、更高层次的判别性特征,$X_B$ 提供了一个集成的视角,可以理解为是一个融合了两种模态精髓的压缩表示。

就像对 $\bar{X}_F$ 和 $\bar{X}_G$ 做了一个 Judge 分别取其精华,然后去其糟粕

  • 它同时参与最终决策:在随后的混合交互读取机制中,$\bar{X}_F$, $\bar{X}_G$, 以及 $X_B$ 这三者被再次组合和序列化,然后输入 GRU。这表明 $X_B$ 不仅仅是在融合 Transformer 内部用于交互,其自身作为一个独立且重要的特征,也会参与到最终的分类特征构建中。它提供了模型对事件流的一个最核心、最抽象的理解。

在得到三特征后,模型最后采用了GRU (Gated Recurrent Unit) 进行最终融合。而在进入 GRU 之前,我们有三个关键的特征序列:

  • 来自 Event Image 增强的特征 ($\bar{X}_F$​)
  • 来自 Event Voxel 增强的特征 ($\bar{X}_G$)
  • 来自融合 Transformer 的 Bottleneck Feature ($\bar{X}_B$ ​ 或其等价物,即经过融合 Transformer 后的瓶颈令牌)

这些特征虽然在融合 Transformer 中进行了交互,但它们最终是以不同的 token/段落形式存在的。 GRUs 的作用是将这些并行的、可能具有不同语义侧重点的特征,有序地“读取”或“处理” 成一个最终的、统一的序列表示。论文中提到“aggregate the three feature sequences into a fused feature $Z$ ”,这意味着 GRU 负责将它们整合成一个单一的、代表整个事件流的特征向量。

所以 GRU 在这里可以视为一种补充,进一步对这些已经高度抽象和融合的特征进行“时序精炼”,确保没有丢失任何重要的时间模式。

思考与展望

在深入理解该框架后,我们不妨来考虑架构存在的的一些潜在局限性和可能的拓展方向

  1. 潜在局限性
    • 计算复杂度较高:该框架是一个“重量级”模型。它包括两个独立的骨干网络(Transformer和GNN)、多个注意力模块(RBE)、一个融合Transformer和一个GRU序列模型。这使得模型的训练和推理成本相当高,可能不适用于对延迟要求极高的实时应用场景。而论文在局限性分析部分也承认了这一点。
    • 阈值的敏感性与自适应性:RBE模块中的两个关键阈值 $\theta_1$ 和 $\theta_2$ 是通过实验在验证集上确定的超参数。这意味着它们可能存在数据集依赖性,在面对新的、分布差异较大的数据时可能需要重新调整。我们或许可以考虑设计一种动态或自适应的阈值学习机制,让网络自行判断如何划分特征等级。
    • “质量”的定义单一:论文使用自注意力权重作为衡量特征质量的唯一标准。这可能不是最优或最全面的定义。特征的质量也可以从其对最终分类任务的信息熵、判别力(如类内紧凑度、类间分离度) 等角度来衡量。探索更多元的质量评估标准可能会带来提升。
    • 读取机制的解释性:混合交互读取机制虽然在实验上证明有效,但其内在工作原理的可解释性略显不足。为什么对特征进行全排列后输入GRU会有效?这更像是一种通过“暴力”组合来增强模型容量和数据拟合能力(Ensemble思想)的技巧。其背后的理论支撑有待更深入的探究。
  2. 拓展方向
    • 模型轻量化与知识蒸馏:作者在未来工作亦有提及,一个非常有价值的方向是模型压缩。可以将这个复杂的EFV++作为“教师网络”,通过知识蒸馏技术,将其学到的高质量融合知识迁移到一个更轻量级的单流或简化双流“学生网络”中,以实现精度和效率的平衡。
    • 泛化到其他多模态任务:RBE模块这种基于质量的差异化融合思想具有很好的普适性。它可以被推广到其他多模态融合任务中,如RGB-事件融合、文本-图像融合等。验证其在更广泛场景下的有效性或许是一个有趣的研究方向。

以上

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注