第五章距离信息的检测 5.1双目立体视觉 5.1.1概述 5.1.1工作原理 5.1.1.2匹配特征的选择 5.1.1.3匹配规则 5.1.1.4算法简介 5.1.2Marr- Poggio- Grimson算法 5.1.3 Baker- Binford算法 5.1.4摄象机的标定 5.1双目立体视觉 5.1.概述 如果能从两个不同的位置观察同一物体,我们就能用三角计算方法测量摄象机到该物体 的距离。这种方法被称为立体视觉或双目立体视觉( Stereo或 binocular vision),或简 称为体视。体视是人类获取环境三维信息的主要途径。人类的许多能力,如识别和定位物体 回避障碍物,和搜索物体等都要依靠体视。因此人类视觉系统具有高度发达的体视功能,可 以在相当大的范围内实时地提供关于周围物体相对位置的准确信息,体视的距离可远达 1000米。体视可经受各种干扰,在各种光照条件和光度学及几何学畸变的条件下仍能可靠 地提供立体信息。体视可经受对比度的变化,在一幅图相对于另一幅图有明显的模糊或扩展 时,仍能工作良好。体视的处理是快速的,并能很好地处理物体运动的情况。体视对深度信 息检测的分辨率很高。在理想条件(孤立边缘)下能可靠地分辨小于1秒弧的视差ˉ。 这相当于在1米的观察距离上确定大约相距0.8毫米的两个特征的相对深度,或在50厘米 远处的0.2毫米的相对深度 在计算机视觉研究中立体视觉也是很重要的,因为它可适用于各种条件。例如,体视可 被用于根据航空照片获得地形信息,这时就难以应用主动式的测距方法。对体视的研究从根 本上来说有两种不同的目的和方法:一种是为了理解人类双目立体视觉的机理;另一种是找 寻获得距离信息的实用方法。前者寻求人类立体视觉的计算机模型,它可适用于各种情况, 因此需要进行大量的计算:;与此相反,后者希望开发可实用的立体视觉系统,由于它是适用 于特定的领域,因此通常是不通用的。由于体视处理需要进行大量计算,因此目前在实用中 还未被广泛采用。近来由于在高速信号处理器硬件研究方面取得迅速进展,以及并行处理技 术的发展,使得有可能应用通用的并行处理器来解决体视处理中的计算量问题。此外,上述 两种方法之间的相互渗透和启发能为发展实用的通用立体视觉系统指出新的途径。因此,对 体视的研究再次引起各方的重视 5.1.1.1工作原理 图5.1(a)所示为用双摄象机观测同一景物时的情形。物体上的点P在摄角机1中的成
87 第五章 距离信息的检测 5.1 双目立体视觉 5.1.1 概述 5.1.1 工作原理 5.1.1.2 匹配特征的选择 5.1.1.3 匹配规则 5.1.1.4 算法简介 5.1.2 Marr-Poggio-Grimson 算法 5.1.3 Baker-Binford 算法 5.1.4 摄象机的标定 5.1 双目立体视觉 5.1.1 概述 如果能从两个不同的位置观察同一物体,我们就能用三角计算方法测量摄象机到该物体 的距离。这种方法被称为立体视觉或双目立体视觉(Stereo 或 binocular Vision),或简 称为体视。体视是人类获取环境三维信息的主要途径。人类的许多能力,如识别和定位物体, 回避障碍物,和搜索物体等都要依靠体视。因此人类视觉系统具有高度发达的体视功能,可 以在相当大的范围内实时地提供关于周围物体相对位置的准确信息,体视的距离可远达 1000 米。体视可经受各种干扰,在各种光照条件和光度学及几何学畸变的条件下仍能可靠 地提供立体信息。体视可经受对比度的变化,在一幅图相对于另一幅图有明显的模糊或扩展 时,仍能工作良好。体视的处理是快速的,并能很好地处理物体运动的情况。体视对深度信 息检测的分辨率很高。在理想条件(孤立边缘)下能可靠地分辨小于 1 秒弧的视差[Wes 78]。 这相当于在 1 米的观察距离上确定大约相距 0.8 毫米的两个特征的相对深度,或在 50 厘米 远处的 0.2 毫米的相对深度。 在计算机视觉研究中立体视觉也是很重要的,因为它可适用于各种条件。例如,体视可 被用于根据航空照片获得地形信息,这时就难以应用主动式的测距方法。对体视的研究从根 本上来说有两种不同的目的和方法:一种是为了理解人类双目立体视觉的机理;另一种是找 寻获得距离信息的实用方法。前者寻求人类立体视觉的计算机模型,它可适用于各种情况, 因此需要进行大量的计算;与此相反,后者希望开发可实用的立体视觉系统,由于它是适用 于特定的领域,因此通常是不通用的。由于体视处理需要进行大量计算,因此目前在实用中 还未被广泛采用。近来由于在高速信号处理器硬件研究方面取得迅速进展,以及并行处理技 术的发展,使得有可能应用通用的并行处理器来解决体视处理中的计算量问题。此外,上述 两种方法之间的相互渗透和启发能为发展实用的通用立体视觉系统指出新的途径。因此,对 体视的研究再次引起各方的重视。 5.1.1.1 工作原理 图 5.1(a)所示为用双摄象机观测同一景物时的情形。物体上的点 P 在摄角机 1 中的成
象点为A,它是通过从P点发出的光线经过透镜中心C1与图象平面相交而形成的。相反地, 若已知图象平面上的一点A和透镜中心C1可唯一地确定一条射线AC。所有可成象在A点的 物体点必定在这条AC射线上。但问题是不知道物体在这条射线上的什么地方,也就是不知 道离得多远。如果我们能找到同一物体点P在另一摄象机中的成象点B,那么根据第二个图 象点B与相应透镜中心C2决定的第二条射线BC2与AC1的交点就可以确定物体点的位置。因 此,如果已知两台摄象机的几何位置,并且摄象机是线性的,同时知道同一物体在两个摄象 机中的成象位置,那么利用三角原理就可以计算物体在空间的位置。射线 (a)外极线 (b)视差和距离计算 图5.1立体视觉原理 AC1上各点在右摄象机图象平面中的成象是一条直线(BD),这条线被称为外极线( epipolar) 同理,BC2在左摄象机图象平面中的成象也形成外极线。因此,如果已知空间点在一个图象 平面中的成象点要寻找在另一图象平面中的对应点时,只需沿此图象平面中的外极线搜索即 可。图5.1(b)所示为两摄象机的光轴平行,并且摄象机的水平扫描线位于同一平面时的简 单情形。P点在左、右图象平面中成象点相对于坐标原点O和Q(01和0是左、右摄象机透 镜光轴与图象平面的交点)的距离分别为α和β。P点在左、右图象平面中成象点位置差α+ β被称为视差( disparity)。在图5.1(b)所示情况下,P点距透镜中心的距离d等于 d a+B 其中∫是透镜的焦距,b是两透镜中心之间的距离,当摄象机的几何位置固定时,视差α+β 只与距离d有关,而与P点离摄象机光轴的距离无关。视差越大说明物体离透镜的距离越近 反之,则越远
88 象点为A,它是通过从 P 点发出的光线经过透镜中心 C1 与图象平面相交而形成的。相反地, 若已知图象平面上的一点 A 和透镜中心 C1 可唯一地确定一条射线 AC1。所有可成象在 A 点的 物体点必定在这条 AC1 射线上。但问题是不知道物体在这条射线上的什么地方,也就是不知 道离得多远。如果我们能找到同一物体点 P 在另一摄象机中的成象点 B,那么根据第二个图 象点 B 与相应透镜中心 C2 决定的第二条射线 BC2 与 AC1 的交点就可以确定物体点的位置。因 此,如果已知两台摄象机的几何位置,并且摄象机是线性的,同时知道同一物体在两个摄象 机中的成象位置,那么利用三角原理就可以计算物体在空间的位置。射线 图 5.1 立体视觉原理 AC1 上各点在右摄象机图象平面中的成象是一条直线(BD),这条线被称为外极线(epipolar)。 同理,BC2 在左摄象机图象平面中的成象也形成外极线。因此,如果已知空间点在一个图象 平面中的成象点要寻找在另一图象平面中的对应点时,只需沿此图象平面中的外极线搜索即 可。图 5.1(b)所示为两摄象机的光轴平行,并且摄象机的水平扫描线位于同一平面时的简 单情形。P 点在左、右图象平面中成象点相对于坐标原点 O1 和 O2(O1和 O2 是左、右摄象机透 镜光轴与图象平面的交点)的距离分别为和。P 点在左、右图象平面中成象点位置差+ 被称为视差(disparity)。在图 5.1(b)所示情况下,P 点距透镜中心的距离 d 等于 d f b = + (5-1) 其中 f 是透镜的焦距,b 是两透镜中心之间的距离,当摄象机的几何位置固定时,视差+ 只与距离 d 有关,而与 P 点离摄象机光轴的距离无关。视差越大说明物体离透镜的距离越近; 反之,则越远
(a)收敛视差 (b)发散视差 图5.2双目光轴不相平行时的视觉 在一般情况下左、右摄象机(双目)的光轴不平行,而是相交于某一点(称为固定点) 如图5.2所示。固定点的视差为零。如果物体点在固定点的前方(离透镜较近,图5.2(a)) 这时的视差称为收敛视差( convergent disparity)。在图5.2中用双目代表摄象机,在研 究人的视觉时常用视角差来表示视差。如果物体点在固定点后方(图5-2(b)),这时的视 差称为发散视差( divergent disparity)。这时的视差直接反映物体点距固定点的距离 而固定点的位置可通过改变摄象机光轴的夹角进行调整。因此,改变摄象机光轴的夹角可以 调整距离测量范围。例如,人在观察近处的物体时就需要把双目的光轴会聚在近处 为了避免混淆需要说明一下距离和深度的定义。距离是指从观察者到物体的客观实际距 离;深度( depth)是指由观察者感觉到的主观距离,通常是测量相对于定位点或某个空间 点的距离。 如上所述,从原理上讲根据“立体图象对”抽取深度信息的处理应包括以下四部分 1.在图象中寻找在两幅图象中都便于区分的特征,或用于匹配的基元( primitive 2.把左、右两幅图象中的有关特征进行匹配,即解决特征匹配的方法问题。 3.确定摄象机的相对几何位置和有关参数,即摄象机的校准( Calibration) 4.根据视差计算成象物体相对摄象机的距离。 这些问题中最重要和困难的是前两个问题。也就是在左、右图象中发现与同一空间点对 应的成象点对,这说是所谓的对应性( Correspondence)问题。一旦确定了对应关系就可 容易地计算出这些图象点所代表的物体点在空间的位置。但是对一幅图中的给定匹配基元来 说在另一幅图中经常可发现不止一个可能的匹配基元与之匹配。这样就产生了匹配中的多义 性或匹配假目标问题。这是个关键而困难的问题 51.12匹配基元的选择 对应性问题不是简单地把两幅图中象素的灰度作比较就能解决的。左、右图象中单个象 素点的灰度不够稳定,即使认为它们是稳定的话,也很容易出现在相当大的区域里象素具有 相同灰度的情况,这样就造成了严重的多义性问题,或假目标( false target)问题 立体视觉处理中对搜索对应点时的多义性问题可分两步来解决。第一步,是在单幅图象 作预处理时通过抽取图象局部结构较为丰富的描述来减少错误对应的可能性;第二步,是在 两幅图的对应点间作匹配时应用选择性规则来限制搜索空间。各种算法间的区别主要在于它 们在匹配时选择什么样的匹配基元( matching primitive)作为表面位置标志的基本元素
89 图 5.2 双目光轴不相平行时的视觉 在一般情况下左、右摄象机(双目)的光轴不平行,而是相交于某一点(称为固定点), 如图 5.2 所示。固定点的视差为零。如果物体点在固定点的前方(离透镜较近,图 5.2 (a) ) 这时的视差称为收敛视差(convergent disparity)。在图 5.2 中用双目代表摄象机,在研 究人的视觉时常用视角差来表示视差。如果物体点在固定点后方(图 5-2(b)),这时的视 差称为发散视差(divergent disparity)。这时的视差直接反映物体点距固定点的距离, 而固定点的位置可通过改变摄象机光轴的夹角进行调整。因此,改变摄象机光轴的夹角可以 调整距离测量范围。例如,人在观察近处的物体时就需要把双目的光轴会聚在近处。 为了避免混淆需要说明一下距离和深度的定义。距离是指从观察者到物体的客观实际距 离;深度(depth)是指由观察者感觉到的主观距离,通常是测量相对于定位点或某个空间 点的距离。 如上所述,从原理上讲根据“立体图象对”抽取深度信息的处理应包括以下四部分: 1. 在图象中寻找在两幅图象中都便于区分的特征,或用于匹配的基元(primitive)。 2. 把左、右两幅图象中的有关特征进行匹配,即解决特征匹配的方法问题。 3. 确定摄象机的相对几何位置和有关参数,即摄象机的校准(Calibration)。 4. 根据视差计算成象物体相对摄象机的距离。 这些问题中最重要和困难的是前两个问题。也就是在左、右图象中发现与同一空间点对 应的成象点对,这说是所谓的对应性( Correspondence)问题。一旦确定了对应关系就可 容易地计算出这些图象点所代表的物体点在空间的位置。但是对一幅图中的给定匹配基元来 说在另一幅图中经常可发现不止一个可能的匹配基元与之匹配。这样就产生了匹配中的多义 性或匹配假目标问题。这是个关键而困难的问题。 5.1.1.2 匹配基元的选择 对应性问题不是简单地把两幅图中象素的灰度作比较就能解决的。左、右图象中单个象 素点的灰度不够稳定,即使认为它们是稳定的话,也很容易出现在相当大的区域里象素具有 相同灰度的情况,这样就造成了严重的多义性问题,或假目标(false target)问题。 立体视觉处理中对搜索对应点时的多义性问题可分两步来解决。第一步,是在单幅图象 作预处理时通过抽取图象局部结构较为丰富的描述来减少错误对应的可能性;第二步,是在 两幅图的对应点间作匹配时应用选择性规则来限制搜索空间。各种算法间的区别主要在于它 们在匹配时选择什么样的匹配基元(matching primitive)作为表面位置标志的基本元素
以及选用什么规则来限制搜索空间和删除不合适的匹配 选择匹配基元时要考虑基元的稳定性和敏感性。由于图象对中不可避免地存在光度学和 几何学的畸变。为使在这种情况下仍能可靠地检测所需的位置标志,所选的匹配基元应能经 受上述两方面的畸变,也就是应有较高的稳定性。同时,从减少出现不正确匹配的可能性来 看,所选的匹配基元应能灵敏地反映两个匹配基元之间的差别,这就是说要有较高的敏感性。 人类的立体视觉经受图象对之间对比度差别的能力很强,这意味着在人的立体视觉中可能应 用了如局部灰度梯度最大点这样的与对比度大小无关的匹配基元。在选择匹配基元时还应考 虑便于检测、能准确定位和允许在较大的视差范围内进行匹配等因素。目前所用的匹配基元 可以分成两大类 1.在所有图象点上抽取的量测 这类匹配基元一般是在每个象素位置处都产生一个描述,所以这时把匹配基元看成是 种量测比看成一种特征更为确切。这些特征表示图象中的局部结构状态,在数量上要比象素 少得多。属于这类的匹配基元有以下几种: (1)象素灰度。象素灰度可由成象系统直接得到,因此是最简单的。目前被用于大多数 商用的视觉系统中。 (2)局部区域的灰度函数。在各种大小窗口中求得的灰度分布的导数可用于产生描述各 点周围结构的矢量83 (3)v2G卷积图象的符号。把图象与各种大小的v2G算子卷积后,图象中各点的 符号可作为原始图象特征的描述。在卷积后的图象中可得到正号区和负号区。这两个区域之 边界接近于灰度梯度局部极大值的位置。 2.图象特征 这种匹配基元较为符号化,它检测图象中包含丰富信息的结构所在的位置,例如图象中 的边缘,这些边缘可能与景物中表面之间的边界相对应。与象素相比图象特征数量较少。 (1)V2G卷积图象中的过零点。这种方法是由Marr和 Poggio,Marr和 Hildreth ∞0提出和发展的。它虽然也可用于检测边缘,但是更确切说这种方法的目的是检测稳定的、 稠密的表面标志。按这种方法任何小的影调变化或小的纹理变化只要稳定都是一个特征。 (2)边缘。这种基元试图抽取景物中表面之间或不同颜色区域之间的实际边界。这种匹 配基元上还可以带有如边缘方向、对比度、长度、边缘曲率等附加信息。检测边缘的算子如 第四章中所述种类很多。在选择边缘作为特征时有两点需要考虑:第一,由于对于给定的特 征点来说,对应的外极线上的点都是可能的匹配点。所以与外极线方向平行的边缘线段无法 作为匹配的特征,只有其方向与外极线交叉的边缘点才能作为匹配基元。第二,因为边缘经 常代表深度的不连续点,在从不同位置所取得的图象中,边缘两侧的区域情况将会不同。因 此,基于边缘特征的立体视觉算法通常只利用边缘的位置和方向的信息,而对边缘两侧的灰 度信息用得很少 5113匹配规则( matching rules) 在研究具体的匹配规则以前需要先讨论在匹配过程中应遵循的约束条件。这些约束条件 是根据对匹配环境所作的假设产生的,约束条件主要包括以下三条: 1.相容性( Compatibility)约束 如果两个匹配基元确实是由同一物理标记产生的,那么它们就可以匹配起来。如果不是 这样,它们就不能匹配。在判断两个匹配基元是否相容时要根据它们之间的相似性。问题是 如何度量匹配基元的相似性。有两种相似性的假设。一种是基于光度学不变性的性质。即左 右图象对应区域中灰度的变化情况相似。如果景物中表面的深度变化比较平缓,同时由于双 眼相隔的距离不大,作这样的假设是有道理的。例如,用立体视觉原理,通过航空摄影测地
90 以及选用什么规则来限制搜索空间和删除不合适的匹配。 选择匹配基元时要考虑基元的稳定性和敏感性。由于图象对中不可避免地存在光度学和 几何学的畸变。为使在这种情况下仍能可靠地检测所需的位置标志,所选的匹配基元应能经 受上述两方面的畸变,也就是应有较高的稳定性。同时,从减少出现不正确匹配的可能性来 看,所选的匹配基元应能灵敏地反映两个匹配基元之间的差别,这就是说要有较高的敏感性。 人类的立体视觉经受图象对之间对比度差别的能力很强,这意味着在人的立体视觉中可能应 用了如局部灰度梯度最大点这样的与对比度大小无关的匹配基元。在选择匹配基元时还应考 虑便于检测、能准确定位和允许在较大的视差范围内进行匹配等因素。目前所用的匹配基元 可以分成两大类: 1. 在所有图象点上抽取的量测 这类匹配基元一般是在每个象素位置处都产生一个描述,所以这时把匹配基元看成是一 种量测比看成一种特征更为确切。这些特征表示图象中的局部结构状态,在数量上要比象素 少得多。属于这类的匹配基元有以下几种: (1) 象素灰度。象素灰度可由成象系统直接得到,因此是最简单的。目前被用于大多数 商用的视觉系统中。 (2) 局部区域的灰度函数。在各种大小窗口中求得的灰度分布的导数可用于产生描述各 点周围结构的矢量[Kas 83]。 (3) 2G 卷积图象的符号[Nis 83]。把图象与各种大小的 2G 算子卷积后,图象中各点的 符号可作为原始图象特征的描述。在卷积后的图象中可得到正号区和负号区。这两个区域之 边界接近于灰度梯度局部极大值的位置。 2. 图象特征 这种匹配基元较为符号化,它检测图象中包含丰富信息的结构所在的位置,例如图象中 的边缘,这些边缘可能与景物中表面之间的边界相对应。与象素相比图象特征数量较少。 (1) 2G 卷积图象中的过零点。这种方法是由 Marr 和 Poggio[Mar 79],Marr 和 Hildreth[Mar 80]提出和发展的。它虽然也可用于检测边缘,但是更确切说这种方法的目的是检测稳定的、 稠密的表面标志。按这种方法任何小的影调变化或小的纹理变化只要稳定都是一个特征。 (2) 边缘。这种基元试图抽取景物中表面之间或不同颜色区域之间的实际边界。这种匹 配基元上还可以带有如边缘方向、对比度、长度、边缘曲率等附加信息。检测边缘的算子如 第四章中所述种类很多。在选择边缘作为特征时有两点需要考虑:第一,由于对于给定的特 征点来说,对应的外极线上的点都是可能的匹配点。所以与外极线方向平行的边缘线段无法 作为匹配的特征,只有其方向与外极线交叉的边缘点才能作为匹配基元。第二,因为边缘经 常代表深度的不连续点,在从不同位置所取得的图象中,边缘两侧的区域情况将会不同。因 此,基于边缘特征的立体视觉算法通常只利用边缘的位置和方向的信息,而对边缘两侧的灰 度信息用得很少。 5.1.1.3 匹配规则(matching rules) 在研究具体的匹配规则以前需要先讨论在匹配过程中应遵循的约束条件。这些约束条件 是根据对匹配环境所作的假设产生的,约束条件主要包括以下三条: 1. 相容性(Compatibility)约束 如果两个匹配基元确实是由同一物理标记产生的,那么它们就可以匹配起来。如果不是 这样,它们就不能匹配。在判断两个匹配基元是否相容时要根据它们之间的相似性。问题是 如何度量匹配基元的相似性。有两种相似性的假设。一种是基于光度学不变性的性质。即左、 右图象对应区域中灰度的变化情况相似。如果景物中表面的深度变化比较平缓,同时由于双 眼相隔的距离不大,作这样的假设是有道理的。例如,用立体视觉原理,通过航空摄影测地
形时,由于地形的起伏与飞机的高度相比较小,因此可采用这样的假设。但在机器人视觉应 用中,景物的深度分布经常有急剧变化,在这样的区域附近容易产生与左图中相对应的区域 在右图中被遮挡,或反之的情况。这时光度学不变性的假设就难以保持。另一种相似性的假 设是根据几何学不变性,即两幅图象中描述对象的几何结构相同。例如,在以边缘作为匹配 基元时,沿外极线上任何扫描方向,在左、右图象中边缘出现的次序相同(虽然由于存在遮 挡,出现在左图中的边缘可能不出现在右图中,或反之)。 2.唯一性约束 由于在任何时刻位于某一物质表面上的一个给定点在空间只占有一个唯一的位置,所 以,除了极个别的情况以外,某个匹配基元只能与另一幅图象中的一个匹配基元相匹配。这 样,图象中的每个匹配基元最多只能有一个视差值。 3.连续性约束 这条约束条件的含义是匹配得到的视差值的变化在图象中几乎处处平滑。这个约束条件 是以下述假设为前提的:和表面到观察者的总距离相比较,物体表面凹凸引起的变化或由观 察者到表面的距离变化造成的差异都很小。因此,物体表面可看成是平滑的。也说是说,除 物体的边界外,从观察者到可见表面的距离的变化是连续的,而物体的边界只占图象面积的 很小部分。 上述约束条件对减小匹配多义性的作用可用下述例子来说明。如图5.3所示,左、右眼 都可以看到4个点,那么左图中任意一个点到底与右图中哪一个点相对应呢?如果匹配不是 对一的,则在4个点的情况下,对每个点来说有2=16种可能的方式与另幅图象中的点相 匹配。所以,从原理上来说,4个点总共有65536种可能的匹配方式。根据唯一性的约束条 件,来自两个眼睛的任何一条视线上都不能有多于一个的匹配,也即每条视线或无匹配点 或有一个匹配点,这将使匹配方式降为209种。如果进一步限制沿每条视线只有一个匹配点 那么在图5.3中所有的16个可能匹配中可以有24种排列组合方式。这时需要应用连续性来 进一步减小匹配的多义性。连续性约東条件说明在这24种可能的匹配方式中最可能的是视 差变化最平滑的物体表面,在图5.3中用实心圆表示。因此,R1一R4应顺序地与L-L4相匹 ※ 图5.3两个视网膜上成象对应关系的多义性 以下的问题是如何把上述一般性的约束条件结合到算法中去这方面的规则可分成两大 类,一类规定相似性测量的本质,另一类对相邻匹配基元的视差的关系作出限制。每种匹配 算法至少利用这两类规则中的一种。具体来说有以下两大类规则。 1.对相似性测量的本质作出规定的规则有以下几种: (1)区域的统计量。把图象中小区域里得到的统计量与另一幅图象作比较,以得到相似 性测量。例如,在两幅图象之间进行小区域灰度分布的相关运算和视差方差的统计分析就是 属于这一类。一般来说,采用这种相似性测量时要求假设在这个小区域中的视差为常数,因 此相当于作了很强的表面连续性的假设
91 形时,由于地形的起伏与飞机的高度相比较小,因此可采用这样的假设。但在机器人视觉应 用中,景物的深度分布经常有急剧变化,在这样的区域附近容易产生与左图中相对应的区域 在右图中被遮挡,或反之的情况。这时光度学不变性的假设就难以保持。另一种相似性的假 设是根据几何学不变性,即两幅图象中描述对象的几何结构相同。例如,在以边缘作为匹配 基元时,沿外极线上任何扫描方向,在左、右图象中边缘出现的次序相同(虽然由于存在遮 挡,出现在左图中的边缘可能不出现在右图中,或反之)。 2. 唯一性约束 由于在任何时刻位于某一物质表面上的一个给定点在空间只占有一个唯一的位置,所 以,除了极个别的情况以外,某个匹配基元只能与另一幅图象中的一个匹配基元相匹配。这 样,图象中的每个匹配基元最多只能有一个视差值。 3. 连续性约束 这条约束条件的含义是匹配得到的视差值的变化在图象中几乎处处平滑。这个约束条件 是以下述假设为前提的:和表面到观察者的总距离相比较,物体表面凹凸引起的变化或由观 察者到表面的距离变化造成的差异都很小。因此,物体表面可看成是平滑的。也说是说,除 物体的边界外,从观察者到可见表面的距离的变化是连续的,而物体的边界只占图象面积的 很小部分。 上述约束条件对减小匹配多义性的作用可用下述例子来说明。如图 5.3 所示,左、右眼 都可以看到 4 个点,那么左图中任意一个点到底与右图中哪一个点相对应呢?如果匹配不是 一对一的,则在 4 个点的情况下,对每个点来说有 2 4 =16 种可能的方式与另幅图象中的点相 匹配。所以,从原理上来说,4 个点总共有 65536 种可能的匹配方式。根据唯一性的约束条 件,来自两个眼睛的任何一条视线上都不能有多于一个的匹配,也即每条视线或无匹配点, 或有一个匹配点,这将使匹配方式降为 209 种。如果进一步限制沿每条视线只有一个匹配点, 那么在图 5.3 中所有的 16 个可能匹配中可以有 24 种排列组合方式。这时需要应用连续性来 进一步减小匹配的多义性。连续性约束条件说明在这 24 种可能的匹配方式中最可能的是视 差变化最平滑的物体表面,在图 5.3 中用实心圆表示。因此,R1—R4 应顺序地与 L1—L4 相匹 配. 图 5.3 两个视网膜上成象对应关系的多义性 以下的问题是如何把上述一般性的约束条件结合到算法中去.这方面的规则可分成两大 类,一类规定相似性测量的本质,另一类对相邻匹配基元的视差的关系作出限制。每种匹配 算法至少利用这两类规则中的一种。具体来说有以下两大类规则。 1. 对相似性测量的本质作出规定的规则有以下几种: (1) 区域的统计量。把图象中小区域里得到的统计量与另一幅图象作比较,以得到相似 性测量。例如,在两幅图象之间进行小区域灰度分布的相关运算和视差方差的统计分析就是 属于这一类。一般来说,采用这种相似性测量时要求假设在这个小区域中的视差为常数,因 此相当于作了很强的表面连续性的假设