为了解决室外时变环境下视觉定位困难的问题,博士生沉焱创新性地提出了一种解决方案SensLoc。 SensLoc 利用移动设备内置的传感器数据(例如GPS、指南针和重力传感器)为视觉定位提供有效的初始姿势和约束,从而缩小图像检索和姿势估计的搜索空间。此外,SensLoc还设计了直接2D-3D匹配网络,以高效建立查询图像与3D场景之间的对应关系,避免了现有系统中需要多次2D-2D匹配的低效解决方案。为了验证SensLoc的有效性,论文还构建了一个包含多种移动传感器数据和显着场景外观变化的新数据集,并开发了一个获取查询图像真实姿态的系统。大量实验表明,SensLoc可以在时变的室外环境中实现准确、鲁棒、高效的视觉定位。
论文地址:https://arxiv.org/pdf/2304.07691.pdf 背景目前主流的视觉定位方法首先构建查询图像的2D像素与参考图的3D点之间的2D-3D对应关系,然后使用PnP RANSAC算法求解相机的六个参数。自由度姿势。对于大规模场景,图像检索通常被用作中间步骤,以提前确定场景的哪些部分可能在查询图像中可见。然而,在时变的室外环境中,由于光照、季节和结构变化等因素导致的外观差异使得2D-3D匹配非常困难,因此在这种具有挑战性的条件下的视觉定位仍然是一个尚未解决的问题。解决了问题。随着配备各种传感器的移动设备的逐渐普及,如惯性测量单元(IMU)、重力计、指南针、GPS、WiFi和蓝牙等,结合视觉和多传感器位姿估计方法,需要准确地估计姿态。估计实际场景中的位置。定位提供了新的思路。视觉定位相关工作1 基于三维模型的视觉定位基于三维模型的视觉定位通过建立查询图像与三坐标之间的2D-3D 对应关系来估计相机的六自由度位姿。维度模型。传统的视觉定位方法通常采用人工设计的局部特征,如SIFT,实现2D-3D匹配,并与图像检索技术相结合,将匹配范围限制在查询图像的可见区域,以适应需求大型场景。近年来,随着深度学习技术的发展,传统的人工设计特征逐渐被基于深度学习的特征所取代。 HLo是一个六自由度视觉定位框架,集成了多种基于深度学习的图像检索和图像匹配方法,目前取得了该领域最好的性能。然而,HLoc 仍然有一些局限性。一方面,在检索阶段,全局特征不足以应对场景中复杂的视觉变化,可能会出现误检索。另一方面,在2D-3D匹配阶段,需要多个2D-2D图像匹配作为中间过程,导致运行效率较低和计算开销较高。为了解决这些问题,论文提出了一种基于自注意力和交叉注意力机制的直接2D-3D匹配方法。该方法可以直接将二维查询图像与三维局部地图一次性匹配,从而提高视觉定位的速度。和准确性。 2 基于多传感器的视觉定位在广阔的室外环境中,GPS可以提供地理位置坐标(经纬度)。一些方法使用GPS作为先验来简化视觉定位中的图像检索任务;而其他方法则使用GPS作为优化的约束来提高视觉里程计和视觉SLAM的定位精度。另外,IMU传感器测量的重力方向精度较高,是常用的位姿先验。在可靠的重力方向指导下,先前的工作设计了最小求解器(Minimalsolvers)或使用正则化器(Regularizers)约束来提高PnP的性能。然而,目前还没有同时考虑多个传感器的视觉定位方法。如今,手机和其他智能设备配备了各种传感器,包括陀螺仪、加速度计、指南针、GPS、Wifi 和蓝牙。因此,本文提出一种新的视觉定位算法,以充分利用多个传感器提供的先验信息。方法针对上述背景和相关工作,本文提出了一种视觉与多传感器相结合的三阶段方法。
1 基于传感器的图像检索给定一个查询图像,图像检索任务需要在参考图像集中找到与查询图像具有共同视图关系的图像子集:
以前的方法是使用映射函数将查询图和参考图映射到紧凑的特征空间中,然后使用最近邻排序来查找共同视图邻居。由于映射函数的表示能力有限,该方法在时变环境中很可能失败。因此,本文提出利用传感器位置和角度信息作为先验,提前缩小图像检索的搜索范围。
从数学上讲,查询图像的先验姿态表示为,其中位置分量来自GPS,旋转分量来自重力计和指南针方向的集成。查询图像仅需要检索图像子集中的共同视图邻居
其中,代表经度和纬度的x-y坐标代表相机的主轴方向。 2 直接2D-3D匹配给定查询图和公共视图邻居,2D-3D匹配任务需要在像素和可观察的局部点云之间建立2D-3D对应关系。具体来说,首先使用多级网络提取查询图像和参考图像的粗(用表示)和细(用表示)粒度特征,然后将局部点云投影到参考特征图上并进行插值并求平均得到点云。特征。然后,使用具有注意力机制的网络将查询图像的粗粒度特征与本地点云进行匹配,确定点云在查询图像中是否可见,并初步确定其在图像上的位置。分别使用注意力机制变换后的粗粒度图像和点云特征,概率匹配矩阵表示为
通过相互最近邻并设置匹配阈值,粗粒度2D-3D匹配表示为
为相互最近邻,为预设阈值。
最后,对于粗匹配对应的每个二维像素和三维点云,通过点云的细粒度特征与附近裁剪的细粒度窗口特征点乘得到匹配概率,计算二维位置期望以获得查询图像子像素与局部点云之间的精确对应关系。 3 基于重力方向的PnP RANSAC 给定2D-3D对应关系,以往的工作通常使用PnP RANSAC算法来求解相机的六自由度位姿。论文在PnP RANSAC迭代中插入了简单有效的验证模块,保证重力方向的正确性。具体来说,对于RANSAC迭代生成的位姿假设,它与重力方向上的传感器位姿之差为
论文可以利用条件提前过滤掉大部分错误姿势,以实现更高效、更鲁棒的姿势解决方案。数据集论文构建了一个新的数据集来验证所提出方法的有效性。该数据集由一个城市公园(约31,250 平方米)组成,其中包含植被、河流、建筑物和人行道。作为一个公共区域,不可避免地会经历各种场景的变化,比如不同的灯光、季节、天气、移动的行人、车辆,甚至新的基础设施建设。数据集构建流程如下图所示。
1 三维参考图的构建本文利用全景相机采集参考图像来构建三维参考图。与单目相机相比,全景相机具有更高的采集效率。将7,958 张全景图像分割并转换为针孔模型后,该数据集包含47,780 张参考图像。为了确定模型比例并与地理坐标系保持一致,研究在全景相机上预先绑定了RTK记录仪来记录绝对地理坐标。 2 查询图像采集三维参考图构建完成半年后,研究人员在同一地址行走,开发了一款Android 应用采集应用程序(Acquisition APP),使用华为P40 pro 和小米Mix 3 手机拍摄视频以收集疑问。图像,并通过绑定RTK记录仪获取拍摄时的地理位置信息。采集APP可以同时记录手机内置传感器的数据,包括IMU、重力计、指南针、蓝牙、WiFi和GPS。捕获的视频与所有传感器进行硬件同步并仔细校准。由于本文重点关注单个图像的视觉定位,因此对视频序列进行采样以生成离散的单个图像。 3 3D辅助地图构建及伪位姿真值生成由于查询图像与3D参考图之间存在跨时间变化,因此很难根据构建的一半3D参考图生成查询图像的伪位姿真值一年前。论文提出在收集查询图像时构建三维辅助图。 3D辅助地图的构建方法与3D参考地图的构建方法类似。还使用全景相机和RTK记录仪进行采集,并使用ICP技术进行对准。基于三维辅助图生成的查询图像的伪真值与基于三维参考图生成的伪真值等效。论文设计了一套联合优化方法来生成伪真值。优化项目包括:1)图像自定位约束; 2)序列图像的相对位姿约束; 3)IMU的运动约束; 4)其他先验约束,例如重力。方向和RTK 位置。
结果1 图像检索检索结果如下表所示。尽管传感器先验本身不能输出准确的结果,但它可以用来提高基于全局特征的检索方法的性能。一般来说,将全局特征OpenIBL与相机主轴方向先验和GPS位置先验相结合可以达到最佳的检索效果。
2 视觉定位视觉定位结果如下表所示。在具有挑战性的夜间条件下,由于SensLoc 的2D-3D 匹配无需提取关键点,该方法的性能显着优于其他基线方法。此外,SensLoc只需要进行从粗到精的匹配,该方法的运行速度比第二有效的方法HLoc(SuperPoint+SuperGlue)快30倍。此外,重力引导的PnP RANSAC 不仅提高了精度,还将位姿估计速度加快了4 倍。可以看出,在时变的室外环境中,可以通过视觉和多传感器数据实时求解满意的姿势。
3 消融分析SensLoc 对图像检索结果的敏感性如下表所示。使用传感器先验或地面实况检索结果可以显着提高(25cm,2)/(50cm,5)/(1m,10)处视觉定位的召回率。消融分析表明,图像检索结果在SensLoc 的姿态估计中发挥着关键作用。
应用前景研究成果在民用和军事领域都有广泛的应用。在民用领域,这项研究可用于自动驾驶、机器人导航、混合现实等多种应用。在军事领域,该研究可用于支持地面和空中有人/无人设备,通过真实的三维数字战场支持拒止条件下的高精度自定位和目标指示。审稿人:李茜