1.3.1 基于单应性的方法

单应性是指两个平面之间的映射关系,它刻画了某平面上的点如何通过特定变换映射至另一平面,单应矩阵常用来表达两张图像共同平面上的点的变换关系。将透视视角(PV)转换为鸟瞰视角(BEV)的传统方法是利用两个视角图像(以下简称为视图)之间固有的几何投影关系,其核心是利用地面上的物理映射关系来桥接两个视图。这个转换过程通常会用到逆透视映射(Inverse Perspective Mapping,IPM)方法。

BEV感知算法中的IPM方法是一种将车载摄像头捕获的图像从透视视角转换为鸟瞰视角的技术。这种方法通过几何变换,能够对图像中道路和车辆等物体的畸变进行校正,生成更准确的车辆行驶环境二维平面图,为自动驾驶和智能车辆导航提供重要支持。

IPM方法引入了附加约束条件,即逆映射点严格位于水平面上,这是实现从透视视角图像到鸟瞰视角图像转换的基础。转换首先通过相机旋转的单应性进行预处理或后处理,然后进行各向异性缩放。单应性矩阵可以从相机的内外参数中导出。

然而,传统的IPM方法在很大程度上依赖于地面是一个平面的假设,这可能导致在检测位于地平面上方的物体时出现问题。为了解决这一问题,一些方法开始融入更多的语义信息以减少失真。例如,某些方法利用语义信息将透视图中的物体足迹转换为BEV中的对应表示,从而遵循了单应性隐含的“地面是一个平面”的假设。由于透视视图和鸟瞰视图之间存在明显的差异和变形,因此单纯依赖IPM方法往往无法生成完全无失真的BEV图像或语义图,因此引入生成对抗网络(GAN)方法用于提高生成的BEV特征或图像的真实性。GAN方法能够有效地减轻图像的失真现象,并增强3D检测的准确性。

综上所述,基于单应性的方法依赖于透视视角与鸟瞰视角之间的地面物理映射关系,通过简单的矩阵乘法可以实现图像转换,同时结合语义信息和GAN技术能够提高转换质量。