TSCF – Temporal Shift CNN – Transformer

作者：

在

整体把握

这一篇 Paper 属于多模态领域下的视频识别，具体聚焦于 RGB 图像和 Event (事件)数据联合识别流程。具体来说，Paper 提出了一个基于 CNN – Transformer 的轻量级模型，旨在解决 CNN 融合 Transformer 在处理 RGB-Event 数据时模型识别精度与参数量（模型复杂度）间不平衡的问题。

模型通过使用高效的时间位移CNN（Temporal Shift CNN）作为骨干网络提取局部时空特征，同时巧妙地引入一个轻量级的 BridgeFormer 模块，通过独立的全局令牌（global tokens）来捕捉和融合两种模态的全局长程关系，从而在保证高性能的同时，显著降低了模型的复杂度。

架构细节

如图所示。TSCFormer 的整体架构呈现三分支交互架构，包括两个局部特征提取分支（RGB 和 Event）和一个全局关系建模分支（BridgeFormer）

特征提取分支 – 双路输入与主干网络

论文为 RGB 视频帧和事件数据流（经预处理转换成事件图像）分别设置了一个独立的 时间位移 CNN (Temporal Shift CNN) 分支。这个主干网络（此处采用的是 ResNet50）负责提取每个模态内部的局部时空特征。时间位移模块（Temporal Shift Module）是一种无需增加计算量就能建模时序关系的有效技术

全局关系分支 – Global Tokens & BridgeFormer Module

这是 Paper 的核心创新点。它不直接将 CNN 的特征图输入庞大的 Transformer，而是独立初始化一组全局令牌 (Global Tokens)。之后 BridgeFormer 模块接收这些全局令牌作为查询（Query），并将两个 CNN 分支在特定层输出的特征图拼接后作为键（Key）和值（Value）。
通过交叉注意力机制 (Cross-Attention)，全局令牌可以从 RGB 和 Event 的局部特征中“汲取”关键信息。随后，这些吸收了多模态信息的全局令牌会经过一个标准的 Transformer 层 (包含多头自注意力 MHSA 和前馈网络 FFN) 进行自我更新，从而建模了全局长程依赖关系。

两类型分支特征交互与融合 – F2V & F2E(Former to Vision/Event)

全局令牌在经 BridgeFormer 输出增强后，会通过 F2V 和 F2E 模块被重新“注入”回两个 CNN 主干分支中。这两个模块本质上是一个特征转换器，包含一个全连接层和一个重塑（Reshape）操作，将令牌形式的全局信息通过维度变化，投影转换回原特征图的维度。转换后的全局特征与原有的 CNN 局部特征通过拼接 (Concatenate) 和 1×1 卷积进行融合，实现了局部与全局信息的交互。这个过程在主干网络的多个阶段（blocks）中重复进行。

为什么采用这四种结构？

CNN 用于捕捉空间上的局部细节特征

TS 用于捕捉时间上的短程连续特征

Transformer 用于捕捉时间上的长程离散特征

Bridge Former 用于将时空特征进行融合提取并重新投影返回，作为下一阶段的输入

在架构中我们详细展开一下 TSCNN 和 Bridge Former 这两个子架构

TSCNN

TSCNN 主要由两大核心部分组成：空间特征提取骨架 和 时序建模模块。

空间特征提取骨架

这部分是一个标准成熟的 2D CNN 架构，核心职责是从单个帧（或特征图）中提取强大的空间特征。论文采用的是 ResNet 50，相关笔记介绍过残差网络，所以此处不做额外展开。

时序建模模块

这部分是 TSCNN 的灵魂，TSCNN 能从 2D 网络变为一个（伪）3D 网络并能够处理时序信息。其核心就是 Temporal Shift Module。

TSM 的工作原理很简单，即在特征通道的维度上进行“时间旅行”。它不添加任何可学习的参数，而是通过重排内存中特征值的位置来实现时序信息的交换。

比如对于一个大小为 $[T, C, H, W]$ 的输入特征（T个时间帧，C个通道，高H，宽W），TSM 会将其中一部分通道的特征值，沿着时间维度 T 进行前向/后向或者双向移动。

这本质上是对 3D CNN 的一种模拟，但由于无额外参数的引入，在避免了 3D CNN 的较大计算量的同时实现了相邻帧之间特征信息的交换，因此 TSM 非常适合捕捉连续帧之间的细微、快速的时序动态，即短程、连续的时序特征。

Global Token & Bridge Former

在论文的架构中，Global Token 和 BridgeFormer 模块中是扮演着连接和融合多模态局部特征与全局信息的关键角色。

我们可以将 Global Token 理解为具体的实体（一系列可学习的向量），而 “Bridge” 更像是一个功能层。因为论文在 3.2 节”Input Representation” 中明确提到：

Meanwhile, we also randomly initialize a set of global tokens $Z \in \mathbb{R}^{B \times L \times D}$ as the input of the BridgeFormer module for local-global feature aggregation

“Randomly initialize” 意味着这些 Global Token 是可学习的参数，因而它们不直接对应输入图像的某个特定区域，而是作为整个输入（或整个阶段的输入）的抽象代表。它们能够通过交叉注意力（Cross-Attention）机制，主动从 RGB 和 Event CNN 提取的局部特征（Key 和 Value）中吸取和聚合各自模态的以及跨模态的全局上下文信息。

相对应的，BridgeFormer 就是 Global Token 实现学习的具体手段或者说机制，论文在 3.4 节 “BridgeFormer Sub-Network” 中是这么描述的：

More specifically, we randomly initialize a set of global tokens $Z \in \mathbb{R}^{B \times L \times D}$ and treat it as the query feature $Q$.

The concatenated RGB-Event features $[\hat{F}_I^i, \hat{F}_E^i]$ are transformed into key and value features, i.e., $K$ and $V$.

Then, a cross-attention layer is utilized to fuse these tokens…

Considering the self-attention’s powerful ability to model long-term distance relationships, we process the output tokens into Q, K, and V, and feed into the Multi-Head Self-Attention (MHSA) layer…

这是一个很明确，很经典的 Transformer 架构，它起到了连接和桥接两个主要功能

连接局部 CNN 特征与全局 Transformer 思维： 它将 CNN 提取的局部特征与 Transformer 擅长处理的长期依赖关系连接起来。
桥接 RGB 模态与 Event 模态： 通过交叉注意力机制，它实现了两种异质模态（RGB 和 Event）之间信息的交互和融合。

实现上，是一轮 Self-Attention + FFN 后转移到 F2V/F2E Module 映射回下一轮的输入维度。

通过这种设计，TSCFormer 避免了在整个高分辨率特征图上运行庞大的 Transformer，从而在实现多模态局部-全局特征融合的同时，保持了模型的高度轻量化和高效性。

以上

TSCF RGB-Event

分类导航

TSCF – Temporal Shift CNN – Transformer

整体把握

架构细节

特征提取分支 – 双路输入与主干网络

全局关系分支 – Global Tokens & BridgeFormer Module

两类型分支特征交互与融合 – F2V & F2E(Former to Vision/Event)

为什么采用这四种结构？

TSCNN

空间特征提取骨架

时序建模模块

Global Token & Bridge Former

评论

发表回复取消回复

更多文章

–

VLMo – Vision-Language Pre-trained Model

CS61B – Lab 07 RBTree

ALBEF – Align Before Fuse

TSCF – Temporal Shift CNN – Transformer

整体把握

架构细节

特征提取分支 – 双路输入与主干网络

全局关系分支 – Global Tokens & BridgeFormer Module

两类型分支特征交互与融合 – F2V & F2E(Former to Vision/Event)

为什么采用这四种结构？

TSCNN

空间特征提取骨架

时序建模模块

Global Token & Bridge Former

评论

发表回复 取消回复

更多文章

–

VLMo – Vision-Language Pre-trained Model

CS61B – Lab 07 RBTree

ALBEF – Align Before Fuse

发表回复取消回复