图像处理-冈萨雷斯
注意
图像处理的一般步骤:提取原始图像→灰度处理→滤波→边缘检测→图像分割→特征提取。
〇、图像性质和表达
0.1 基本概念
0.2 图像数字化
0.3 数字图像性质
0.4 彩色图像
0.5 摄像机
一、图像预处理
1.1 图像预处理
输入输出都是亮度图像
**目的:**抑制不想要的变形或者增强某些对于后续处理重要的图像特征
- 方法:
- 像素亮度变换
- 几何变换
- 局部邻域预处理
- 图像复原
1.2 像素亮度变换
1.2.1 两类:
- 亮度校正:在修改像素亮度的同时要考虑像素原来的亮度和其在图像中的位置
- 灰度级变换:在修改像素亮度时无需考虑其位置
1.2.2 常见的亮度变换有
- 亮度阈值化
- 直方图均衡化:目的是创建一幅在整个亮度范围内具有相同分布的亮度图像
- 对数的灰度级变换
- 查找表变换
- 伪彩色变换
1.3 几何变换
1.3.1作用:可以消除图像获取时所出现的几何变形
1.3.2步骤:
- 像素坐标变换
- 亮度插值
像素坐标变换将输入图像映射到输出图像,常用的有仿射变换和双线性变换,经过变换后,输出点的坐标一般并不符合数字离散光栅;插值被用来确定输出像素的亮度。常使用的有最近邻插值、线性插值、双三次插值
1.4局部预处理
1.4.1 方法
使用输入图像中一个像素的小邻域来产生输出图像中新的亮度数值
1.4.2 分类
- 图像平滑
- 边缘检测
1.4.3图像平滑
目的:抑制噪声或其他小的波动,等同于在傅里叶频域抑制高频部分
算法:
- 均值滤波
- 中值滤波:是一种减小边缘模糊的非线性平滑方法
- 非线性均值滤波:
基于直接平均的平滑方法会模糊边缘,改进的方法通过在一致性的局部区域内平均来减小模糊。
中值滤波是一种非线性操作,它用邻域中亮度的中值代替图像中当前的点来减小模糊
1.4.4 边缘检测
**通过梯度算子确定边缘:**边缘是亮度函数发生急剧变化的位置,它们的效果类似于在傅里叶频域抑制低频部分。
常用算子:
- Roborts算子:2x2,缺点是对噪声高度敏感
- Laplace算子:3x3,缺点是对某些边缘产生双重响应
- Prewitt算子:3x3,与Sobel、Kirsch算子类似,近似一阶导数,在8个可能的方向估计梯度
- Sobel算子:3x3,通常用于检测水平或者垂直边缘
- Kirsch算子:
图像锐化:一般使用Laplacian算子
卷积边缘检测子的主要缺点是:依赖尺度且对噪声敏感。选择某个最好的局部邻域算子尺度并不是那么容易的。
二阶导数过零点比小尺度的梯度检测更加的稳定,可以用Laplacian of Gaussians (LoG)或者difference of Gaussions(DoG)来计算。
在多光谱图像中,也可以检测边缘。
1.4.5边缘提取
Canny边缘检测子对受白噪声影响的阶跃型边缘是最优的。最优性标准是基于如下要求的:检测重要边缘、小的定位误差、单边缘响应。该检测子与一个对称2D高斯做卷积,再沿梯度方向微分;接着的步骤包括非最大边缘抑制、滞后阈值化处理和特征综合。
- Canny边缘提取
(1)将图像f与尺度为delta的高斯函数做卷积
(2)对图像中每个像素,估计局部边缘的法线向量
(3)用非极大值抑制方法找到边缘位置
(4)计算边缘强度
(5)对边缘图像做滞后阈值化处理
(6)对递增的标准差,重复1-5步骤
(7)用特征综合办法,收集来自多尺度
1.4.6 角点检测
1、Moravec检测
2、Harris角点检测器
(1)首先,对图像进行高斯滤波
(2)对每个像素,估计其垂直两个方向的梯度,使用近视导数的做两次一维卷积即可
(3)对每个像素和给定的邻域窗口:计算局部结构矩阵A,计算响应函数R(A)
(4)选取响应函数R(A)的一个阈值,以选取最佳候选角点,并完成非最大化抑制。
特点:对二维平移、旋转、少量光照变化、视角变化都不敏感,而且计算量很小
最大稳定极值区域检测(MSER)
不仅在旋转、平移后,即便经历相似和仿射变换也可以被重复检测出来
遍历极值区域算法流程:
(1)根据亮度值对图像像素进行排序
(2)从最小灰度开始向上迭代
(3)考虑当前灰度值为g的像素;不断加入像素块并更新连通域结构
(4)如果两个区域合并,可以看做一个小块的消失
(5)当所有的亮度值都已被处理,我们得到一个保存每一个连通域面积的数据结构,可以看做是一个阈值的函数。
1.4.7其它局部预处理
- 线条寻找
- 线条细化
- 线条不缺
- 兴趣点检测
一幅图像中,诸如角点和最大稳定极值区域等结构包含更丰富的信息,检测边缘更为稳定,他们常用语图像匹配。
1.5图像复原
1.5.1 概念:利用有关退化性质的知识来抑制退化,多数图像复原方法是基于整幅图像上的全局性去卷积的方法。
1.5.2 三类典型的退化具有简单的函数形式:物体相对于摄像机作近似匀速运动、不当的镜头焦距、大气扰动。
1.5.3 逆滤波假设退化是由线性函数引起的
1.5.4 维纳滤波给出了对未被噪声污染的原始图像的一个最小均方差估计;一般而言,它是退化图像的非线性函数。
二、图像的分割
2.1 图像分割概述
**目的:**将图像划分为与其中含有的真实世界的物体区域有强相关性的组成部分
**分割的方法:**阈值化、基于边缘的、基于区域的
每个区域可以用其封闭的边界来表示,每个封闭的边界描述一个区域
**主要的分割问题:**图像数据的不明确性和信息噪声
分割过程中可得到的先验信息越多,所获得的的分割效果就越好,
2.2 阈值化
1、阈值化是最简单的分割处理,计算代价小、速度快。一个常量阈值用来分割物体和背景。既可以在整幅图像上施加阈值(全局阈值),也可以依赖于图像部分而改变的阈值(局部阈值)。单个阈值在整幅图像上成功的例子很少。
2、阈值化有许多修正:局部阈值化、带阈值化、多阈值化
3、阈值检测方法自动地确定阈值。如果事先知道分割后的图像的某种性质,就可以简化阈值选择,因为阈值可以按照该性质得以满足的条件来选择。阈值检测可以使用p率阈值化、直方图形状分析、最优阈值等等。
4、在二模态直方图中,阈值可以确定为两个最大的局部极大值和极小值位置。
5、最优阈值化确定阈值为离对应于两个或更多个正态分布最大值之间的最小概率处最近的灰度值。其结果是具有最小错误的分割。
6、多光谱阈值化适合彩色或多谱段图像。
2.3 基于边缘的分割
1、基于边缘的分割依赖于边缘检测子;边缘标示了图像在灰度、彩色、纹理等方面连续的位置。
2、图像噪声或不适合的信息通常可以导致在没有边界的地方出现了边缘以及在实际存在边界的地方没有出现边缘。
3、边缘图像阈值化是基于边缘图构建的,由合适的阈值来实现。
4、边缘松弛法在相邻边缘的上下文中考虑边缘。如果存在边界出现的足够证据,就增加局部边缘强度,反之亦然。全局松弛法优化过程建立边界。
5、可以定义内边界、外边界和拓展的边界。内边界总是区域的一部分;外边界绝不是,那么利用内边界、外边界的定义,如果两个区域相邻,它们绝对不会有共同的边界。拓展边界定义了相邻区域的单一的共同边界,可以用标准的像素坐标来标识。
6、如果定义了最优性准则,可以使用**(启发式)图搜索或动态规划方法**确定全局最优边界。基于搜索的边界检测是一种极为有利的分割方法——边界检测过程被转化为在加权图中搜索最优路径的问题。节点与费用关联起来,该费用反映边界通过某个特定节点(像素)的可能性。连接两个指定节点即起点和终点的最优路径(最优边界,相对于某个目标函数来说)就得以确定。
7、费用定义(评价函数)是边界检测成功的关键。费用计算的复杂度的变化范围覆盖了从简单的边缘强度的逆到复杂的先验知识的表示,先验知识是有关待搜索的边界、分割任务、图像数据等的。
8、图搜索使用Nilsson的A-算法,可以确保最优性。启发式图搜索可以显著地加快搜索速度,尽管启发式必须满足附加的约束才能确保最优性。
9、动态规划是基于最优化原理的,给出了从多个起点和终点中同时搜索最优路径的一个有效的方法。
10、使用A-算法搜索图,并不需要构造整个图,因为只有需要时才计算扩展节点的费用。在动态规划中,必须建好完整的图。
如果局部费用函数的计算简单,动态规划 可能是在计算上话费不高的选择。然而,对于特定的问题而言,两种图搜索方法(A-算法、动态规划)中究竟哪种方法更有效,取决于评价函数和A-算法的启发式信息的性质。
11、Hough变换分割适用于在图像中检测已知形状的物体。Hough变换可以检测直线和已知解析公式的曲线(物体边界)。在识别有遮挡物的或受到噪声影响的物体方面是鲁棒性的。
如果待搜索形状的解析公式并不存在,可以用广义Hough变化,参数曲线(区域边界)描述是基于样本情形的,并在学习阶段确定下来。
12、尽管根据完全的边界形成区域是微不足道的,根据部分边界确定区域可能是一个非常复杂的任务。可以根据如下的概率来简历区域:像素是否位于由部分边界包围的区域内。这些方法并不总是能找到可以接受的区域,但是它们在很多实际情况中很有用
2.4 基于区域的分割
1、区域增长分割应该满足:完全分割条件、最大区域一致性条件
2、有三种基本的区域增长方式:区域归并、区域分裂、分裂与归并区域增长
3、在分水岭分割中,集水盆地代表了分割后图像的区域。分水岭分割的最初的算法开始与寻找从图像的每个像素到图像表面搞成的局部极小的下游路径。定义集水盆地为满足以下条件的所有像素的集合:这些像素的下游路径终止于同一个高程极小点。在第二种方法中,每个极小值代表了一个集水盆地,策略是冲这个高程极小值开始填充集水盆地。
4、使用区域增长方法分割图像,时常由于参数设置的非最优性造成的结果,不是含有太多的区域(欠增长)就是含有过少的区域(过增长)。许多后处理器被提出来改进的分类结果。简单的后处理器减少分割后图像中的小区域的数目。更复杂的后处理方法可以从区域增长得到的分割信息与基于边缘的分割结合起来。
2.5 匹配
1、模板匹配可以用于在图像中定位已知表观的物体,也可以用于搜索的模式等,最好的匹配是基于某种最优性准则的,该准则依赖于物体的性质和物体的关系。
2、匹配标准的定义可以有多种方式,特别地,模式与被搜索的图像数据间的相关性是一个普遍性的匹配标准。
3、斜切匹配可以用于定位一维特征,不然使用基于费用的最优方法可能会失效。
2.6 评测
1、基于模板的匹配耗时,但是该过程可以通过引入合适的模板匹配控制策略来加速
2、分割的评测对于决定分割算法,给定算法的参数选择非常有用。
3、监督式的评测比较了分割算法的输出和真值。
4、监督式的方法通常比较相互重叠区域,或者分割边界间的距离——存在一些不同的做法。
5、真值尝尝难以定义或者获得的代价很大。非监督式的方法评价分割效果时不需要考虑真值。
6、有很多非监督式的存在,但它们通常受到图像区域假设的限制。
三、物体识别
3.1 物体识别和模式识别
1、模式识别用于区域及物体分类,是复杂机器视觉处理中的重要组成部分。
2、所有识别操作都要根据一定的知识,既需要关于待处理物体的知识,也需要关于物体类别的更高层次上的一般性知识。
3.2 知识表示
1、描述与特征 2、语法与语言 3、谓词逻辑 4、 产生式规则 5、模糊逻辑 6、语义网络 7、 框架和脚本
3.3 统计模式识别
1、物体识别判断物体的类别,完成这种判定的仪器成为分类器
2、通常类别的数目事先已知,一般可以根据具体的问题确定。
3、分类器将使用从物体中检测出的模式来进行决策。
4、最小近邻分类器易于理解且应用广泛。在高维或者大数据情况下,使用它非常耗时,但可以通过K-D树或者其他近似方法进行改进。
5、统计模式识别的一个特点是定量的物体秒速,并且采用基本的数值描述——特征。所有可能的模式构成了模式空间或特征空间。在特征空间中形成聚类,而这些聚类可以用分类超曲面分开。
6、统计分类器是一个具有n输入和1输出的装置。每个输入端接收关于n个特征中一个的信息,这n个特征由待分类物体测量得到。一个R-分类器输出R个符号中的一个wr,即标识符。
7、在分类器学习过程中,分类参数由一个样本训练集合确定。两种常用的学习策略为概率密度估计和直接损失最小化。
9、支持向量机的训练基于最大化两类的间隔。支持向量机的非线性分类得益于核技巧。结合多个两类问题的分类器可以得到多类问题的分类器。
10、聚类分析不需要学习训练集合。它根据待处理模式集合中各元素间相似度将整个集合划分为若干个集合(聚类)。
3.4 神经元网络
1、大多神经元方法都基于对基本处理单元(神经元)的组合,每个处理器接收若干个输入,并生成一个输出。对每个输入都有一个对应的权值与其相对应,输入即是关于输入加权和的函数。
2、前馈网络在模式识别问题中经常用到,前馈网络采用反向传播算法学习一个训练集合而得到。
3、自组织网络不需要学习训练集合来达到给模式聚类的目的。
3.5 句法模式识别
1、句法模式识别的特点是对物体的定性描述。句法描述的物体的基本性质成为基元。关系结构用来描述物体基元间的关系。
2、所有基元都成的集合成为字符集。由字符集中字符组成的 能够描述一类物体的所有词语的集合称为描述语言。语法是一个规则的集合,这些规则定义了特定语言中由字符集中的字符构造词语的可能方式。
3、构造语法通常需要很多人为干预,对于简单的情况,可以采用自动从样本构造语法的过程,这一过程成为语法推导。
4、关于待处理词语是否能由特定语法产生的识别判定在语法分析过程中完成。
3.6 作为图匹配的识别
1、模型与物体图表示间的匹配可以用于识别。精确的图匹配成为图的同构。判定图的同构计算量非常大。
2、在现实世界中,物体图和模型图很难精准匹配。图同构不能估计不匹配的程度。为了识别由相似图表示的物体,需要决定图的相似度。
3.7 识别中的优化技术
1、优化问题寻找目标函数的最小值和最大值。目标函数的设计是性能的关键。
2、大多数传统的优化方法采用基于微积分的爬山方法。这些方法很可能只能找到局部极大值,而不是全局极大值。
3、遗传算法利用适者生存的自然进化机制寻找目标函数的最大值。可能的解表示为一些字符串。遗传算法对可能解的一代进行搜索,而不是对单个解。复制、交叉和突变的序列作用于字符串的当前代,从而生成新的一代。具有最高适合度的串表示了最终解。
4、模拟退火将两个基本优化原理结合起来,分而治之和迭代改进(爬山算法)。这种结合避免了算法陷入局部极值点。
3.8 模糊系统
1、模糊系统可以表示为多变的、不精确的、不确定的和不准确的知识和信息。与人类表达知识的方式类似,模糊系统采用修饰语。
2、模糊推理在模糊系统模型的环境下进行,后者由控制、解、操作数据变量、模糊集合、限制、模糊规则及一个控制机制构成。
3、模糊集合表示模糊空间中的性质。隶属函数体现了描述的模糊性,表示元素属于某个特定集合的确定程度。模糊隶属函数的形状可以通过模糊集限制进行调整。一个限制及其模糊结合构成了一个语义实体,称为语义变量。
4、模糊if then规则是存储知识的模糊联想存储器。
5、模糊推理将单独模糊集中蕴含的知识结合起来做出决策。决定相关模糊区域隶属度的函数关系被称为合成方法,并且由此决定了模糊解空间。为了做出决策,逆模糊过程被采用。合成和逆模糊过程构成了模糊推理的基本部分。
3.9 Boosting
1、Boosting 是一个一般性的方法,它能够结合多个分类性能一般的分类器(也就是所谓的弱分类器)的输出,提高分类性能。
2、在Boosting里,一个复杂的分类规则被很多简单的分类规则代替了。其中,每个简单的分类规则可能只是比随机选择稍微好一点。因此,Boosting能够通过结合仅仅稍微精确度的分类器的输出得到非常精确的结构。
3、AdaBoosting 是一个广泛应用的Boosting算法,其中在训练集上依次训练弱分类器,每次下一个弱分类器是在训练样本的不同权重集合上训练的。权重是有每个样本的分类器的难度确定的。分类的难度是通过前面步骤中的分类器的输出估计的。
4、所有弱分类器的处处结合起来形成一个强分类器。这种结合是基于加权投票多数的。
5、对于弱分类器的选择,除了要求它们比随机分类的效果好以外,没有其他要求。
3.10 随机森林
1、随机森林却别适合于那些包含很多类且有大量数据集可用于训练的问题。
2、随机森林主要用于两类决策任务:分类和回归
3、在分类问题中,决策输出是一个类标签。
4、在非线性回归问题中,输出是一个连续的数值。
5、森林中的每一棵树都可以被并行的训练,一旦训练完成,每个内部结点都关联一个预先定义的二值测试,而之前未曾见过的数据模式根据内部结点测试的结果从根结点被送到一个叶子结点。
6、一个随机森林包含了一个决策树集合,其中每一个可能从训练集的一个随机采样的子集训练得到。
7、与使用单个树进行决策相比,集成多个稍微不同的树能够得到明显高的精度和更好的噪声鲁棒性。
四、图像的理解
4.1 图像的理解
1、机器视觉是由较低和较高的处理层次构成,图像理解在这种分类方法中是最高层次的处理。
2、类似于生物系统,计算机视觉的目的是通过可能的技术和处理方法得到机器行为。
4.2 图像理解的控制策略
1、并行和串行的处理控制
并行处理同时进行多个计算
串行处理操作是顺序的
几乎所有的低层次图像处理都可以并行处理。高层次的处理使用更高层抽象形式,在本质上,通常是串行处理。
2、分层控制
由图像数据控制(自底向上的控制策略):处理过程从光栅图像开始分割图像,再到区域(物体)描述,最后是识别。
基于模型的控制(自顶向下的控制策略):根据可利用的知识得到一系列假设和期望的性质。
混合的控制策略使用数据驱动和模型驱动这两种控制策略。
4.3 尺度不变特征变换:SIFT
SIFT可以在视角变换的图像中检测已知的图像特征点。
SIFT可以从图像中提取稳定的点,并且用鲁棒特征对其进行描述,这些特征的一个小的具有几何一致性的子集就可以确定物体在其它图像的出现。
SIFT包括三个阶段:关键点检测、特征提取和匹配。
SIFT只需要三个匹配点对就可以定义一个可以使用的变换并且非常鲁棒。
4.4 RANSAC:通过随机抽样一致性来拟合
经典的模型拟合方法通常基于最小二乘法、最小残差化的平方和。
如果数据集有瑕疵,异常值会对模型产生负面影响。
RANSAC从一个基于可用数据中的少数样本的简单模型开始,然后利用剩下的数据点来确定一致点和异常点,排除异常点后重新计算模型。
RANSAC代表模型拟合的范畴的改变:“从少数开始增长”是最小二乘法和其它相关方法的对立面,后者期望通过平均来消除偏差。
4.5 点分布模型PDM
AAM同时对形状及其变化以及表观及其变化进行建模。
在训练集中建模时对形状及表观变化分别进行主分量分析。
对形状和亮度模型的参数的组合进行主分量分析,从而得到一系列同时刻画形状和纹理变化的分量。
AAM是PDM的推广,它增强了图像块纹理的亮度统计模型。
AAM的方法需要一个训练样本(图像块以及确定的物体边界)。根据这个数据集推导出对形状、亮度以及它们的组合的变化的统计描述。
4.6 图像理解中的模式识别
监督和非监督的模式识别方法可以用于像素分类。在图像理解阶段,从局部多谱图像像素值中得到的特征向量送到分类器,分类器负责为图像的每个像素分配标记。图像理解可以通过像素标记得到。
被标注的结果图像可能会出现很多小的区域,它们可能是错分类的。基于上下文的后处理方法用于避免这种错误分类。
局部表观和形状可以通过特征方向图(HOG)来描述。可以用(线性)分类器对图像中的物体进行检测和定位。
4.7 Boosted层叠分类器
Boosted层叠分类器使用了注意焦点样式。
自适应提升算法计算了大量的简单特征并选出了少部分最好的特征。
在下一级阶段,分类器被组织成为一个层叠的序列,以简单而快速的分类器为首,用于快速排除物体检测假设,然后仅在剩下的未被排除的假设上应用更加复杂强大而缓慢的分类器。
4.8 基于随机森林的图像理解
随机森林把图像分成预先定义大小的图像块
训练集中的图像块来自物体,并带有标签,非物体的图像块是背景
通过联合分类和回归同时进行物体检测和定位。
识别阶段考虑图像尺度,所以图像块大小都相同。
微软Xbox是随机森林最成功的商业应用。
4.9 场景标注、约束传播
离散标注仅仅允许在最终标注结果中,为每个物体分配一个标记。努力的方向是在整幅图像的范围内获得相容的标注。离散标注总是可以发现一个相容的标记或检测出无法为该场景分配相容的标记。
概率标注允许在物体中同时存在多个标记。标记以概率加权,为每一个物体的标记分配标记记置信度。概率标注通常可以给定一个解释结果以及该解释的置信度量。
约束传播的策略有助于整幅图像中通过局部相容性调整得到全局相容(全局相容)
物体标注依赖于物体性质和潜在物体标记与其他直接相互作用的物体的标记之间的相容性度量。
当搜索解释树,树结点被分配到所有可能的标记,使用基于回溯的深度优先搜索方法。解释树搜索并测试所有可能的标记。
4.10图像的语义分割和理解
语义区域增长技术是使用邻接区域之间的先验知识将上下文结合到区域归并中,然后利用约束传播得到整幅图像全局最优的图像分割和解释。
遗传图像解释是基于假设和验证准则的。一个目标函数用于估计分割的优劣,使用遗传算法优化图像解释,该算法负责产生新的图像分割种群和用于检测的解释假设。
4.11 隐马尔可夫模型
当试图进行图像理解时,我们常常可以将观察到的模式建模为跃迁系统。如果跃迁是事先知道的,且我们知道某个时刻系统的状态,它们就可以被用于帮助决定下一时刻的状态。马尔可夫模型是该思想最简单的例子。
隐马尔可夫模型要处理的三个问题:评价、解码和学习。
Viterbi算法可以用于从可能是不精确的观察中重建系统的演进。
简单的隐马尔可夫模型本身又有各种扩展:两个(或多个)概率上相互合作的隐马尔可夫模型,即耦合的马尔可夫模型非常成功。
4.12 贝叶斯信念网络
由马尔可夫概率关系连接的隐藏和可见活动组成的网络。
如果这些网络无环,给定先验概率,有效的算法可以计算后验概率。
贝叶斯新年网络是一个通用的技术,在计算机领域广泛用于帮助推理。
4.13 马尔可夫随机场
马尔可夫随机场是一种概率的网络,是局部影响的马尔可夫准则的推广。
理论上,它们的行为可以用团来刻画。如果网络是一个网格,这表明团是直接近邻:这在网格是像素的时候最为有用。
该理论可以映射到许多视觉问题中,其中先验假设可以解释图像。最可能的解释可以通过马尔可夫随机场产生。
先验和观测之间的强度可以控制。
最大化马尔可夫随机场似然可以通过高效的图分割方法求解。
该理论在视觉领域应用很广泛。
4.14 高斯混合模型和期望最大化
高斯混合模型可以为真实场景中的很多方面提供易得的解析表示。
期望最大化算法可以确定高斯混合模型的参数(但可能不是最优的)
期望最大化算法是用于寻找某种描述性模型的未知参数的通用迭代过程。
利用Baum-Welch算法训练隐马尔可夫模型是期望最大化算法的另一个特例。
五、3D几何、对应、从亮度到3D
5.1 概述
3D视觉的目标在于从2D场景推断3D信息,是一个内含几何和辐射的困难任务。几何问题是单幅图像并不提供有关3D结构的充分信息,而辐射问题是创建亮度图像的物理过程的复杂性。这个过程是负责的,通常并非所有输入参数是精确地知道的。
5.2 3D视觉任务
有几种不同的研究3D视觉的方法,可以分类为自底向上(或重构)或自上而下(基于模型的视觉)
Marr的理论,成形于20世纪70年代,是自底向上方法的一个例子。其目标是在有关场景中物体的非常弱的假设下,从一副或更多幅亮度图像重构出定性和定量的3D几何描述。
按自底向上的形式排出四个表达:(1)输入亮度图像(2)基元图,以观察者为中心的坐标系中表达图像中的显著边缘(3)2.5D图,表达到观察者的深度和表面的局部方向;(4)3D表达,在于物体自身相关的坐标系中表达物体的几何。
2.5D图是基元图通过各种称之为由X到形状的技术导出的。
3D表达非常难以获得,这个步骤还没有在一般情况下得到解决。
新的感知范畴,比如主动的、有目的的、定性的视觉,试图为解释视觉的“理解”方面提供计算模型。
还没有直接带来实际应用,但是很多部分技术(比如,从X到形状)被广泛应用到实践中。
5.3 3D视觉及其几何
3D透视几何是3D视觉的基本数学工具,正如它在解释针孔相机中那样。
在3D世界中的平行线在2D图像中的投影并非是平行的。
在单透视相机的情况,可以做有关内外相机参数标定的仔细研究。
极限几何告诉我们对应点的搜索是内在的一维的。这可以用基本举证表达为代数形式。
这个工具有几个应用,包括图像矫正、从标定后相机测量进行子运动估计、从两个完全标定好的相机做3D欧式重构、从两个只做了内参标定的相机做3D相似重构、从两个未标定的相机做3D射影重构。
从三个相机的视图间存在三线性关系,这在代数上用三焦距张量表达。
三线性张量的应用是极线迁移;如果已知两个图像,还有三焦距张量,第三个透视图像可以计算出来。
对应问题是3D视觉的核心;存在各种被动的和主动的求解技术。
5.4 辐射学和3D视觉
辐射学告诉我们图像形成的物理机制。
若已知光源的未知,类型、表面方向和观察者位置,就可以从一幅亮度图像得到某种有关深度和表面方向的信息。
这个任务被称为由阴影到形状。
该任务是不明确的和数值上不稳定的。由阴影到形状可以在lambertian表面的简单情况下理解。
有一个实际的方法,它使用一个相机和三个已知光源,选择性照明提供了三个亮度图像。
光度测量立体视觉可以测量表面方向。
5.5 3D视觉应用
1、由X到形状
形状可以由运动、光流、纹理、聚焦/散聚、会聚、轮廓抽取出来。
这些技术中的每一个都可以用于到处Marr视觉理论中的2.5D图,它们自身具有实用价值。
2、完全的3D物体
对于重建具有平的面的物体而言,线条标注是一个过时但是容易接触到的技术。
转换为3D物体需要以物体为重心的坐标系。
3D物体可以机械地测量或通过X线断层摄影术量测。
体建模策略包括构造立体几何、超二次曲面和广义圆柱。
表面建模策略包括:边界表达、三角剖分表面和二次曲面面偏。
3、基于3D模型的视觉
为了从一组距离图像中创建完整的3D模型,必须首先标记测量得到的表面,即应该找到使一个表面与另一个相匹配的旋转和平移。
基于模型的视觉使用有关物体的先验知识来简化识别。
Goad算法是在单幅亮度图像中搜索多面体的方法。
存在从距离图像中确定曲面物体的技术。
4、基于2D视图的3D场景表达
基于2D视图和3D场景表达可以用多视图表达或geons获得。
选择存储一些参考图像再从它们绘制任意视图是肯恩给定。
视图内插并不足够,还需要视图外推。这需要知道几何信息,基于视图的方法与3D几何重建相差并不明显。
从2D无组织视图集合进行3D重建是可能的。该方法最近经常被使用,比如,谷歌街景。
5、重建场景集合
大尺度场景特征比如平面参数可以从直线和近似尺寸等已知物体的特性得到。
众所周知的集合结果可以得到小食店和地面方向。
尽管大尺度的线索不能得到,相似方法也能很好地工作。
5.6 重要概念
单应性:也认为是共线或投影变换。
六、形态学处理
6.1 形态学目的
图像预处理(去噪声、简化形状)
增强物体结构(抽取骨骼、细化、粗化、凸包)
从背景中分割图像
物体量化描述(面积,周长,阴影)
6.2 形态学四原则
平移相容、尺度缩放相容、局部知识、上部半连通
6.3 数学形态学
6.4 形态学运算
测地变换允许在处理过程中变换元素,这就使算法更加灵活。
分割通常从交互选择的标记或者通过利用图像语义性质的某种自动化过程开始。
粒度测定法是一种分析图像中不同大小例子分布情况的量化工具(类似于筛分法)。得到的结果是一条离散的粒度测定取下(谱)
七、运动分析
7.1 运动分析概述
运动假设能够帮助定位移动物体,经常使用的假设包括:最大速度、小加速度、共同运动、相互对应关系
7.2 差分运动分析
7.3 光流
所观测到的任务物体点的亮度不随时间变化
图像平面中的近邻点以相类似的方式移动(速度平滑性约束)