相机标定在计算机视觉和机器人等领域发挥着重要作用。它为后续的场景理解和决策推理提供了标准化的成像空间和精确的几何先验。然而,传统的相机标定技术往往依赖于繁琐的人工干预和特定的场景假设,难以灵活扩展到不同的相机型号和标定场景。近年来,基于深度学习的解决方案显示出替代人工操作、摆脱场景假设的潜力,实现全自动相机标定技术。在这些方案中,各种学习机制、网络架构、先验知识、优化函数、数据集等都得到了广泛的研究。
论文链接:https://arxiv.org/pdf/2303.10559.pdf 本综述总结的方法细节、数据集和构建的评估基准已在线公开,并将定期更新。详情请参见:https://github.com/KangLiao929/Awesome-Deep-Camera- Calibration
该综述首次系统概述了深度学习驱动的相机标定技术,涵盖了深度学习时代(跨度8年)以来各种相机模型标定和应用的最新研究进展。主要探索的标定类别包括标准针孔相机模型、畸变相机模型、跨视角模型和跨传感器模型。该路线紧密贴合基于深度学习的相机标定的研究趋势和实际市场需求。在每个类别中,都充分讨论了相应技术发展的贡献点、优势和局限性,并对未来具体的研究技术点也进行了一定程度的展望。此外,本文还整合构建了一个公开的综合评价基准数据集,可以作为不同研究方法绩效评价的开放平台。该数据集包括在不同模拟环境中生成的合成数据,以及各种真实摄像机在不同场景下采集的图像和视频序列。每个数据样本都提供准确的校准结果、相机参数或视觉提示。最后,我们讨论了整个基于深度学习的相机标定领域中剩余的挑战和未来可能的研究方向。
1. 相机型号及标定目标
相机模型描述了从三维世界坐标中的一点到其在二维图像平面上的投影的成像过程。其中,不同的相机和传感器系统对应不同类型的参数模型。在本次综述中,我们首先回顾了标准针孔相机模型中涉及的内部和外部相机参数以及几何表示。随后,根据基于深度学习的相机标定技术的发展和市场需求,我们回顾了更复杂的模型,例如广角/鱼眼相机模型、卷帘门模型、交叉视角模型和相机-雷达联合模型。特别是,考虑到传统相机标定中一些标定目标的隐式性和异构性,我们还总结了有利于该领域神经网络学习的新标定目标。这些新目标可以加速训练损失收敛并有助于提高校准性能。本次审查的补充材料的第2 部分提供了更多详细信息。
本次回顾涵盖了当前主流相机型号、标定目标及其在市场上的扩展应用。
2. 基于深度学习的相机标定范式及策略
在工业界和学术界,有一些可用的标准相机校准技术(例如OpenCV、Kalibr),因此在计算机视觉的最新发展中,这个过程经常被忽视。然而,使用传统方法校准单个或自然图像和序列(在野外)仍然极具挑战性,特别是当要校准的数据来自互联网或未知的相机型号时。近年来,深度学习给相机标定技术带来了新的启发,实现了无需人工干预的全自动标定过程。本综述首先从学习范式和学习策略两个方面对基于深度学习的相机标定进行了分类和总结。
学习范式
受不同神经网络架构的启发,研究人员开发了两种主流的深度学习相机标定范式。
第一个称为回归范式,使用具有卷积层和全连接层的神经网络来从输入中回归校准目标。随后,回归得到的相机参数用于后续任务,例如畸变校正、相机定位、三维重建等。这种学习范式是该领域首次研究的。各种标定模型的第一个深度学习工作都属于回归范式,如内参标定(Deepfocal[21])、外参标定(PoseNet[22])、广角相机标定(Rong[23])、卷帘门标定(URS-CNN[23])、相机-雷达联合标定(RegNet[27])等
第二种称为重建范式,它放弃了传统的参数回归思想,利用全卷积网络直接从初始输入学习像素级映射函数,将待校准域映射到校准域。该方法侧重于像素级重建以及与后续任务的联合学习,可以实现无参数、一步标定。该范式下的经典标定算法包括:针孔相机(MisCaliDet[108])、广角相机(DR-GAN[31])、卷帘门模型(DeepUnrollNet[46])、相机雷达模型(CFNet[153]) , ETC。
学习策略
在基于深度学习的相机标定的发展中,人们探索了多种学习策略,其中监督学习占绝大多数(超过90%)。考虑到标注工作费时费力,越来越多的研究者正在探索利用半监督学习、弱监督学习、无监督学习和自监督学习来降低神经网络对参数标签的训练要求。这些学习策略的研究重点逐渐从数据量和网络层的堆叠转向数据本身先验知识的挖掘。
在相机标定技术中,几何先验的特点是有效利用数据,因为它们消除了从数据中学习这些信息的需要,这使得网络框架易于解释并更好地适用于类似的数据分布。此外,还利用强化学习来动态解决相机标定问题。我们注意到该领域还有很多学习策略尚未开发和研究,例如主动学习、少样本学习、零样本学习等。这些学习策略可以进一步提高标定的效率和鲁棒性算法,从而拓展相机标定的应用场景,如医学图像处理、军事侦察、自动驾驶等领域。
3 具体研究进展及讨论
该综述的结构和层次分类如下图所示,其中每个部分对应于标定不同相机模型或扩展模型的研究进展。在第3章中,我们介绍了标准针孔相机标定,根据标定目标分为内参标定、外参标定以及内外参组合标定。在第4章中,我们介绍了畸变相机模型标定,根据畸变类型分为径向畸变和卷帘快门畸变。对于径向畸变,我们根据学习范式提供了分类概述;对于卷帘门畸变,我们按照数据类型一一分析。第五章介绍了交叉视角模型的应用,根据算法流程分为直接方案、级联方案和迭代方案。在第6章中,我们介绍了跨传感器模型标定,特别是相机-雷达联合标定,根据标定目标分为像素级、语义级和物体/关键点级标定。在每一章中,我们还总结了相应校准模型下的深度学习研究趋势,并展望了未来研究的技术路径。
有趣的是,我们发现,虽然不同模型标定算法的发展很少有相关性,但它们的研究趋势都呈现出从回归范式向重构范式的扩展。新校准目标的开发也与此相吻合。此外,一些解决方案根据传统标定流程重新设置了各个学习模块的结构和功能,在灵活集成几何求解算法的同时,大大提高了网络的可解释性。更多分析和讨论请参阅综述的第3章至第6章。
本次综述的结构和层次分类,每个类别下列出了一些经典方法
4. 评估基准
由于基于深度学习的相机标定领域没有公开且统一的评估基准,因此我们整合并构建了一个数据集来评估不同方法的泛化性能。在此数据集中,图像和视频是在各种场景(包括模拟环境和真实场景)下由不同摄像机捕获的。此外,我们还根据不同条件提供真实的标定结果、参数标签、视觉线索等,如下图所示。特别是,对于畸变相机模型,我们使用约40种广角相机在室内收集原始数据。每个数据都配有通过校准获得的内参数、外参数和畸变系数。为了丰富场景的多样性,我们还使用了配备不同校准摄像头的车载系统来采集街景环境下的视频序列,涵盖白天、夜间和不同的天气条件。
本次综述整合构建的评价基准数据集
5. 未来研究展望
相机校准是计算机视觉和机器人领域的一个基础但具有挑战性的研究课题。从以上的技术回顾和趋势洞察来看,我们发现当前的深度学习解决方案还有很大的改进空间。从第三章到第六章,本文讨论了各种相机模型未来研究的技术路径。在本节中,我们提出了一些整个研究界可能感兴趣的更广泛的未来研究方向。
序列校准的扩展
现有的深度学习研究主要集中于单幅图像的标定,而忽略了采集序列中的时空相关性。将现有方法应用于第一帧并传播到后续帧是一个简单的解决方案,但无法确保每个输入的完美校准,因此整个序列中都会出现校准错误。学习时空相关性可以为网络提供运动结构相关的知识,同时在一定程度上符合传统相机标定的思想。
目标设定的创新
由于传统标定目标与图像特征之间存在隐式关系,很难通过神经网络进行准确学习。为此,一些研究开发了新颖的学习目标来替代传统的校准目标,为神经网络提供更友好的学习表示。此外,还提出了一些中间几何表示方法来弥合图像特征和校准目标之间的差距,例如反射幅度系数图、校正流、表面几何和法向流。展望未来,我们相信设计更明确、更合理的标定目标学习方法仍有巨大潜力。
预训练策略探索
在深度学习中,使用ImageNet数据集进行预训练已成为一种广泛使用的策略。然而,最近的研究表明,这种方法会对某些相机标定任务(例如广角相机标定)产生负面影响。这主要是由于两个原因:数据差距和任务差距。此外,据我们所知,超出单一图像和单一模态的校准预训练策略尚未得到深入研究。因此,我们认为探索相机标定的深度学习预训练策略是一个有趣且有价值的研究方向。
隐式统一模型的构建
基于深度学习的相机标定方法大多采用传统的参数化相机模型,缺乏适应复杂情况的灵活性。非参数相机模型将每个像素与其相应的三维入射光线相关联,克服了参数模型的局限性。此外,它们允许隐式统一校准,通过像素级回归适应所有相机类型,避免显式特征提取和几何求解等过程。深度学习方法显示了重建校准任务的潜力,使得非参数模型值得重新审视,并有可能在未来取代参数模型。
另一方面,研究人员将隐式统一表示的优点与神经辐射场(NeRF)相结合,用于重建三维结构并综合新的视角。其中,自标定NeRF方法可用于具有任意非线性畸变的通用相机,探索了一种无需标定目标的学习深度和自运动的端到端过程。
本次综述认为,隐式统一相机模型未来可用于优化基于学习的校准算法,也可集成到下游3D 视觉任务中。同时,该领域精心设计的几何先验、标定策略、优化方法、学习表示等也可以用来启发NeRF等领域的发展,进一步摆脱对相机参数和相机的依赖楷模。
更多未来研究方向,尤其是相机标定的实际应用研究点,请参见本综述补充材料第3章。
六、总结
我们回顾了深度学习驱动的相机标定技术,涵盖传统相机模型、新的学习范式和学习策略,详细回顾了现有方法、公共基准和未来的研究方向。为了展示开发过程和现有工作之间的联系,我们提供了一种新的细粒度分类法,通过考虑相机模型和扩展应用来对文献进行分类。此外,在每个类别中,都深入讨论了研究方法的贡献、优势和局限性。我们将维护一个开放的github 存储库并定期更新最新的工作和数据集。我们希望本文的综述能够为相关研究人员和实践者提供重要参考,并促进该领域未来的研究发展。
审稿人:李茜