摘要:光场相机单次拍摄可以同时记录光线的强度与方向信息,相较于 RGB 相机能够更好地揭示场景的三维结构和几何特 征,在目标 6D 位姿估计领域具有独特优势。 针对现有 RGB 位姿估计方法存在复杂场景下检测精度低、鲁棒性差的问题,本文 首次提出了一种基于光场图像的端到端卷积神经网络目标位姿估计方法。 该方法首先利用双路 EPI 编码模块实现高维光场数 据的处理,通过重构出光场 EPI 图像栈和引入水平和垂直 EPI 卷积算子,提高对光场空间角度信息关联的建模能力,并由双分 支孪生网络进行光场图像的浅层特征提取。 其次,设计了带跳跃连接的特征聚合模块,对串联后的水平和垂直方向光场 EPI 浅 层特征进行全局上下文聚合,使网络在逐像素关键点位置预测时有效结合全局和局部特征线索。 针对光场数据不足问题,本文 使用 Lytro Illum 光场相机采集真实场景,构建了一个丰富且场景复杂的光场位姿数据集———LF-6Dpose。 在光场位姿数据集 LF-6Dpose 上的实验结果表明,该方法在 ADD-S 和 2D Projection 指标下平均位姿检测精度分别为 57. 61%和 91. 97%,超越了其 他基于 RGB 的先进方法,能够更好地解决复杂场景下的目标 6D 位姿估计问题。