第八章 主动视觉与融合
第八章 主动视觉与融合
8.1主动视觉 以往视觉方法特点: 作为主体的视觉系统被动地接收外界的信息 处理过程复杂、难以实现而且没有充分考虑生物视觉的特点 以往视觉方法忽略的问题: 中央凹( Fovea)的高分辨能力和视网膜上其它部分(不妨称之为外围视觉)的相对较低的分辨 能力之间的差异 眼动( Eyemovement)功能,这里的眼动是一个广义的概念,实际上往往伴随有头部的追随 运动) 在人类的视觉中正是这两个特性的完美结合使得人类一方面具有宽广的视野同时又具有高 度的分辨能力。主动视觉( Active vision)在某种意义上就是对这些特征的模拟。 主动视觉的概念 主动视觉( ActiveⅤ ISIon)是相对于被动视觉( Passive vision)而提出的概念 主动对纯视觉系统而言就是移动能力 这种能力对生物体表现为空间上的移动而对人造的计算机视觉系统还可以表现为频率上 或不同光谱带上的移动。在广义上对机器人系统而言,这种主动还表现为可以去触摸、去拿对 象物等。 主动行为都是有目的的( Purposive),并且与定性( Qualitative)视觉的研究结合在一起 在主动视觉系统中,由于主体的运动可以提供附加约束,这样就使得部分病态的问题变成良态 的
8.1 主动视觉 以往视觉方法特点: l 作为主体的视觉系统被动地接收外界的信息 l 处理过程复杂、难以实现而且没有充分考虑生物视觉的特点 以往视觉方法忽略的问题: l 中央凹(Fovea)的高分辨能力和视网膜上其它部分(不妨称之为外围视觉)的相对较低的分辨 能力之间的差异。 l 眼动(Eyemovement)功能,这里的眼动是一个广义的概念,实际上往往伴随有头部的追随 运动)。 在人类的视觉中正是这两个特性的完美结合使得人类一方面具有宽广的视野同时又具有高 度的分辨能力。主动视觉(Active Vision)在某种意义上就是对这些特征的模拟。 主动视觉的概念 l 主动视觉(Active Vision)是相对于被动视觉(Passive Vision)而提出的概念 l 主动对纯视觉系统而言就是移动能力 这种能力对生物体表现为空间上的移动,而对人造的计算机视觉系统还可以表现为频率上 或不同光谱带上的移动。在广义上对机器人系统而言,这种主动还表现为可以去触摸、去拿对 象物等。 l 主动行为都是有目的的(Purposive),并且与定性(Qualitative)视觉的研究结合在一起。 在主动视觉系统中,由于主体的运动可以提供附加约束,这样就使得部分病态的问题变成良态 的
81.1从阴影恢复形状 由阴影恢复形状是视觉研究中的一个重要问题,其输入的是图象中每一点的亮 度,而所期望得到的输出是在可视表面上对应点的深度或表面法线方向。 理论上讲,深度图包含所有有关表面的信息并且表面法线也能从深度图中直接 计算出来。 实际上,计算法线是无法获得足够的精度。 采用主动视觉方法可以克服这些局限 最简单的从阴影恢复形状的解决方法是只采用一幅物体表面图象,并在求解时 常采用下面的假设 (1)表面光滑; (2)表面的反射特性在整个表面上都相同,通常假定为 Lamber表面 (3)点光源的光线在整个表面都相同; (4)图象没有噪音
8.1.1 从阴影恢复形状 由阴影恢复形状是视觉研究中的一个重要问题,其输入的是图象中每一点的亮 度,而所期望得到的输出是在可视表面上对应点的深度或表面法线方向。 理论上讲,深度图包含所有有关表面的信息并且表面法线也能从深度图中直接 计算出来。 实际上,计算法线是无法获得足够的精度。 采用主动视觉方法可以克服这些局限。 最简单的从阴影恢复形状的解决方法是只采用一幅物体表面图象,并在求解时 常采用下面的假设: (1)表面光滑; (2)表面的反射特性在整个表面上都相同,通常假定为Lamber表面; (3)点光源的光线在整个表面都相同; (4)图象没有噪音
在以上假设的基础上便可以写出表面与其法线的函数关系,这一关系在逼近 理想表面时达到最优。这个函数关系式在通常情况下是非线性的,其中包含有许 多未知数(每点的深度和法线),因此实际上很难达到全局最优。基于上述这些假 设可以得到一些非常好的结果,但是实际上,这些假设并非特别有效,究其原因 在于这些假设和实际情况相去甚远 采用同一表面的两幅图象可以改善这一情况。相对一幅图象而言,把两幅图 象的信息结合起来,为最优化增加了额外的约束条件,使最小化问题的求解变得 容易。在这种情况下,只须考虑那些沿可能匹配方向上的点,即沿内极线方向上 的点,但这时必须首先解决两幅图象的对应问题。当两个摄像机相隔很近时,很 容易建立两幅图象之间点的对应关系,而且当两摄象机之间的距离很小时就允许 对所包含的函数进行一阶泰勒展开,从而可以将方程线性化。但是摄像机间短基 线对应使这种方法的精度极为有限。反过来如果多个摄像机间相距很远,并且能 够解决对应问题,所得的结果当然会很精确,但解决直接这个问题还存在很多困 难
在以上假设的基础上便可以写出表面与其法线的函数关系,这一关系在逼近 理想表面时达到最优。这个函数关系式在通常情况下是非线性的,其中包含有许 多未知数(每点的深度和法线),因此实际上很难达到全局最优。基于上述这些假 设可以得到一些非常好的结果,但是实际上,这些假设并非特别有效,究其原因 在于这些假设和实际情况相去甚远。 采用同一表面的两幅图象可以改善这一情况。相对一幅图象而言,把两幅图 象的信息结合起来,为最优化增加了额外的约束条件,使最小化问题的求解变得 容易。在这种情况下,只须考虑那些沿可能匹配方向上的点,即沿内极线方向上 的点,但这时必须首先解决两幅图象的对应问题。当两个摄像机相隔很近时,很 容易建立两幅图象之间点的对应关系,而且当两摄象机之间的距离很小时就允许 对所包含的函数进行一阶泰勒展开,从而可以将方程线性化。但是摄像机间短基 线对应使这种方法的精度极为有限。反过来如果多个摄像机间相距很远,并且能 够解决对应问题,所得的结果当然会很精确,但解决直接这个问题还存在很多困 难
主动视觉为融合上述两种方法的优点,并克服其缺点提供了相应的解决途径。 首先,采用多观察点解决对应问题。实际上,对于 Lamber表面,正如前面第五章 表明的那样,采用三个摄象杋就能解决大多数对应模糊的问题,稳定性和可靠性 也得到了改善,但多视点并没有使我们逃脱非线性最优化问题。对于这一类多变 量非线性问题,好的初始估计是最终收敛于全局最优的重要条件。采用主动方法 处理从阴影恢复形状问题的关键是将基于长、短基线的方法相融合,通过短基线 方法提供初始估计指导长基线方法的优化。 基于主动视觉的从阴影恢复形状包括以下两个阶段: 短基线阶段。在这个阶段,可以取相邻的图象帧作为短基线图象对。由于 问题在这里可以近似是线性的,因而容易求解,为深度和表面方向提供了初始估计 值 2.长基线阶段。利用初始估计得到精确的结果 从这种方法中可以看到,我们能独立地在单点上恢复可见物体的几何形状,而不需 要前面所提及的假设和基于整个物体上的优化,因此,尽管数据量巨大,但工作比 以前要容易得多,所有一切都是稳定的并且允许噪声的存在
主动视觉为融合上述两种方法的优点,并克服其缺点提供了相应的解决途径。 首先,采用多观察点解决对应问题。实际上,对于Lamber表面,正如前面第五章 表明的那样,采用三个摄象机就能解决大多数对应模糊的问题,稳定性和可靠性 也得到了改善,但多视点并没有使我们逃脱非线性最优化问题。对于这一类多变 量非线性问题,好的初始估计是最终收敛于全局最优的重要条件。采用主动方法 处理从阴影恢复形状问题的关键是将基于长、短基线的方法相融合,通过短基线 方法提供初始估计指导长基线方法的优化。 基于主动视觉的从阴影恢复形状包括以下两个阶段: 1. 短基线阶段。在这个阶段,可以取相邻的图象帧作为短基线图象对。由于 问题在这里可以近似是线性的,因而容易求解,为深度和表面方向提供了初始估计 值。 2. 长基线阶段。利用初始估计得到精确的结果。 从这种方法中可以看到,我们能独立地在单点上恢复可见物体的几何形状,而不需 要前面所提及的假设和基于整个物体上的优化,因此,尽管数据量巨大,但工作比 以前要容易得多,所有一切都是稳定的并且允许噪声的存在