TSCF – Temporal Shift CNN – Transformer

整体把握

这一篇 Paper 属于多模态领域下的视频识别,具体聚焦于 RGB 图像和 Event (事件)数据联合识别流程。具体来说,Paper 提出了一个基于 CNN – Transformer 的轻量级模型,旨在解决 CNN 融合 Transformer 在处理 RGB-Event 数据时模型识别精度参数量(模型复杂度)间不平衡的问题。

模型通过使用高效的时间位移CNN(Temporal Shift CNN)作为骨干网络提取局部时空特征,同时巧妙地引入一个轻量级的 BridgeFormer 模块,通过独立的全局令牌(global tokens)来捕捉和融合两种模态的全局长程关系,从而在保证高性能的同时,显著降低了模型的复杂度。

架构细节

TSCF Architecture – 图源:论文 Figure 3

如图所示。TSCFormer 的整体架构呈现三分支交互架构,包括两个局部特征提取分支(RGB 和 Event)和一个全局关系建模分支(BridgeFormer)

特征提取分支 – 双路输入与主干网络

论文为 RGB 视频帧和事件数据流(经预处理转换成事件图像)分别设置了一个独立的 时间位移 CNN (Temporal Shift CNN) 分支。这个主干网络(此处采用的是 ResNet50)负责提取每个模态内部的局部时空特征。时间位移模块(Temporal Shift Module)是一种无需增加计算量就能建模时序关系的有效技术

全局关系分支 – Global Tokens & BridgeFormer Module

这是 Paper 的核心创新点。它不直接将 CNN 的特征图输入庞大的 Transformer,而是独立初始化一组全局令牌 (Global Tokens)。之后 BridgeFormer 模块接收这些全局令牌作为查询(Query),并将两个 CNN 分支在特定层输出的特征图拼接后作为键(Key)和值(Value)。
通过交叉注意力机制 (Cross-Attention),全局令牌可以从 RGB 和 Event 的局部特征中“汲取”关键信息。随后,这些吸收了多模态信息的全局令牌会经过一个标准的 Transformer 层 (包含多头自注意力 MHSA 和前馈网络 FFN) 进行自我更新,从而建模了全局长程依赖关系。

两类型分支特征交互与融合 – F2V & F2E(Former to Vision/Event)

全局令牌在经 BridgeFormer 输出增强后,会通过 F2V 和 F2E 模块被重新“注入”回两个 CNN 主干分支中。这两个模块本质上是一个特征转换器,包含一个全连接层和一个重塑(Reshape)操作,将令牌形式的全局信息通过维度变化,投影转换回原特征图的维度。转换后的全局特征与原有的 CNN 局部特征通过拼接 (Concatenate) 和 1×1 卷积进行融合,实现了局部与全局信息的交互。这个过程在主干网络的多个阶段(blocks)中重复进行。

为什么采用这四种结构?

  • CNN 用于捕捉空间上的局部细节特征
  • TS 用于捕捉时间上的短程连续特征
  • Transformer 用于捕捉时间上的长程离散特征
  • Bridge Former 用于将时空特征进行融合提取并重新投影返回,作为下一阶段的输入

在架构中我们详细展开一下 TSCNN 和 Bridge Former 这两个子架构

TSCNN

TSCNN 主要由两大核心部分组成:空间特征提取骨架 时序建模模块

空间特征提取骨架

这部分是一个标准成熟的 2D CNN 架构,核心职责是从单个帧(或特征图)中提取强大的空间特征。论文采用的是 ResNet 50,相关笔记介绍过残差网络,所以此处不做额外展开。

时序建模模块

这部分是 TSCNN 的灵魂,TSCNN 能从 2D 网络变为一个(伪)3D 网络并能够处理时序信息。其核心就是 Temporal Shift Module

Temporal Shift Module – 图源:论文 Figure 4

TSM 的工作原理很简单,即在特征通道的维度上进行“时间旅行”。它不添加任何可学习的参数,而是通过重排内存中特征值的位置来实现时序信息的交换。

比如对于一个大小为 $[T, C, H, W]$ 的输入特征(T个时间帧,C个通道,高H,宽W),TSM 会将其中一部分通道的特征值,沿着时间维度 T 进行前向/后向或者双向移动

这本质上是对 3D CNN 的一种模拟,但由于无额外参数的引入,在避免了 3D CNN 的较大计算量的同时实现了相邻帧之间特征信息的交换,因此 TSM 非常适合捕捉连续帧之间的细微、快速的时序动态,即短程、连续的时序特征。

Global Token & Bridge Former

在论文的架构中,Global Token 和 BridgeFormer 模块中是扮演着连接和融合多模态局部特征与全局信息的关键角色。

我们可以将 Global Token 理解为具体的实体(一系列可学习的向量),而 “Bridge” 更像是一个功能层。因为论文在 3.2 节”Input Representation” 中明确提到:

Meanwhile, we also randomly initialize a set of global tokens $Z \in \mathbb{R}^{B \times L \times D}$ as the input of the BridgeFormer module for local-global feature aggregation

“Randomly initialize” 意味着这些 Global Token 是可学习的参数,因而它们不直接对应输入图像的某个特定区域,而是作为整个输入(或整个阶段的输入)的抽象代表。它们能够通过交叉注意力(Cross-Attention)机制,主动从 RGB 和 Event CNN 提取的局部特征(Key 和 Value)中吸取和聚合各自模态的以及跨模态的全局上下文信息。

相对应的,BridgeFormer 就是 Global Token 实现学习的具体手段或者说机制,论文在 3.4 节 “BridgeFormer Sub-Network” 中是这么描述的:

More specifically, we randomly initialize a set of global tokens $Z \in \mathbb{R}^{B \times L \times D}$ and treat it as the query feature $Q$.

The concatenated RGB-Event features $[\hat{F}_I^i, \hat{F}_E^i]$ are transformed into key and value features, i.e., $K$ and $V$.

Then, a cross-attention layer is utilized to fuse these tokens…

Considering the self-attention’s powerful ability to model long-term distance relationships, we process the output tokens into Q, K, and V, and feed into the Multi-Head Self-Attention (MHSA) layer…

这是一个很明确,很经典的 Transformer 架构,它起到了连接和桥接两个主要功能

  • 连接局部 CNN 特征与全局 Transformer 思维: 它将 CNN 提取的局部特征与 Transformer 擅长处理的长期依赖关系连接起来。
  • 桥接 RGB 模态与 Event 模态: 通过交叉注意力机制,它实现了两种异质模态(RGB 和 Event)之间信息的交互和融合。

实现上,是一轮 Self-Attention + FFN 后转移到 F2V/F2E Module 映射回下一轮的输入维度。

通过这种设计,TSCFormer 避免了在整个高分辨率特征图上运行庞大的 Transformer,从而在实现多模态局部-全局特征融合的同时,保持了模型的高度轻量化高效性

以上

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注