摘要:复杂场景中的目标感知是深度学习在计算机视觉中最重要的研究领域之一,而复杂交通场景中的车辆检测与跟踪是当今 众多学者研究的热点问题。 在视频目标检测过程中由于运动物体的时间维度特征信息利用不充分,导致在长序列之间的时间特 征极其容易被忽略,本文提出一种时空一致性的视频车辆的检测跟踪算法。 该算法由双分支网络结构组成:分支一是由基于空间 相关性的 Transformer 网络模块组成,该分支网络主要用于判断前后帧的相关性、感知相邻帧之间的一致性,预测目标车辆时空一 致性的关联度;另一网络分支是由基于交叉特征金字塔融合的网络模块组成,该模块主要是提取检测对象的局部信息结合浅层的 空间边缘信息和深层的语义特征信息,提取对象空间位置的特征信息。 该网络结构将 Transformer 机制和交叉特征金字塔模块相 结合,利用 Transformer 对长序列之间时间关联性敏感和特征金字塔网络模块对边缘信息敏感的特性,对视频帧对象进行检测和跟 踪,确保相邻帧的长程相关性以及边缘和深层的特征信息深度融合。 实验结果表明,本文设计的双分支网络结构在视频目标跟踪 和检测中取得更好精度和更快的收敛速度;同时在显著性视频目标检测中,实验表明算法的有效性和泛化性。