第2节 数字图像处理的基础知识
推荐给好友
打印
加入收藏
更新于2008-06-15 23:31:50

§2.1 数字图像的基本概念

图像对我们并不陌生。它是用各种观测系统以不同形式和手段观测客观世界而获得的,可以直接或间接作用于人眼并进而产生视知觉的实体。人的视觉系统就是一个观测系统,通过它得到的图像就是客观景物在人心目中形成的形象。科学研究和统计表明,人类从外界获得的信 息约有70%来自视觉系统,也就是从图像中获得的。这里图像是比较广义的,例如照片、绘图、动画、视象等等。图像带有大量的信息,相对于文字描述,它可以给人们更加直观的认识。

客观世界在空间上是三维的,但一般从客观景物得到的图像是二维的。一幅图像可以用一个二维数组f (x, y) 来表示,这里x 和y 表示二维空间XY 中一个坐标点的位置,而f 则代表图像在点(x, y) 的某种性质F 的数值。例如常用的图像一般是灰度图,这时f 表示灰度值,它常对应客观景物被观察到的亮度。需要指出,我们一般是根据图像内不同位置的不同性质来利用图像的。日常所见的图像多是连续的,即f , x, y 的值可以是任意实数。为了能用计算机对图像进行加工,需要把连续的图像在坐标空间XY 和性质空间F 都离散化。这种离散化了的图像是数字图像,通常,我们可以用如下的一个矩阵来表示一个数字图像:

矩阵中的每一个元素称为象元、象素或图象元素,每一个离散的数据代表一个像素的颜色值。上式中,M,N 分别为数字图像在横、纵方向上的像素数,即数字图像的宽度和高度。

2.1.1 颜色模型

通过理论研究和实践结果,人们现在对颜色的物理本质已经有了相当的掌握和了解。颜色的本质是牛顿最早系统研究和发现的,他通过实验证明了白光是由不同颜色(而且这些颜色并不能再进一步被分解)的光线混合而成。这些不同颜色的光线实际上是不同频率的电磁波。人
的脑眼将不同频率的电磁波感知为不同的颜色。

根据人眼结构,所有颜色都可看作是3 个基本颜色──红( R, red ),绿(G, green )和蓝( B,blue )──的不同组合。区分颜色常用三种基本特性量:灰度、色调和饱和度。为了正确地使用颜色,需要建立颜色模型。目前常用的颜色模型可分为两类:一类面向诸如彩色显
示器或打印机之类的硬设备,另一类面向以彩色处理为目的的应用。面向硬设备的最常用彩色模型是RGB 模型,而面向彩色处理的最常用模型是HSI 模型,其中H 表示色调,S 表示饱和度, I 表示密度。这两种颜色模型也是图像技术中最常见的模型。

§2.2 像素间的关系

一幅数字图像由有限个数的像素组成,每个像素都具有两个属性:位置和颜色。通常像素是按照矩阵采样栅格布置的,因此一般采用二维矩阵描述这样的数字图像。用矩阵元素的行列来表示像素的位置,矩阵元素一般是整数和整数向量用来描述像素的颜色信息。数字图像的各
个像素之间存在一些重要的联系,如像素之间的距离、邻接性和连通性等。本节将着重讨论像素之间的这些关系。

2.2.1 距离

坐标为(i, j) 和(h, k) 的两个像素之间的距离可以定义为几种形式[42] ,经典几何学和日常经验中的欧氏距离(Euclidean distance)DE 定义为:

欧氏距离的优点在于:它在事实上是直观的并且是很显然的。但是平方根的计算费时并且其数值不是整数。

数字图像两个像素之间的距离也可以表示为数字栅格上从起点移动到终点所需要的基本步数。如果只允许水平和垂直方向移动,就是距离
D4 。D 也被称为“城市街区(City Block)”距离,它类似与在具有栅格状街道和封闭房屋块的城市里两个位置的距离。D 的定义如下:

在数字栅格中,如果允许沿对角线方向移动就得到距离D ,距离D 也被称为“棋盘(Chessboard)”距离。D 的定义如下:

除了上述的距离定义之外,还有一种称为颜色距离DC 的距离定义。设坐标为(i, j) 的像素为p,坐标为(h, k) 的像素为q,则两个像素之间的颜色距离为: 

这里,l = 1,2,3,为修正系数, 和分别表示两个像素p和q 的颜色向量的分量。颜色距离反映了两个像素颜色的差异程度,而和像素的相对位置无关。

2.2.2 邻接性

像素邻接性(adjacency)是数字图像的另一个重要概念。如果任意两个像素之间的距离,则称为4—邻接(4—neighbors),或称4—邻域。对于坐标为(i, j) 的像素p 它由四个水平或垂直方向的近邻像素r ,它们的坐标分别为 ,这些像素组成了像素p 的4—邻域,记为。类似地,8—邻域指的是像素间的距离,记为 。另外,像素p 的4 个对角邻接像素,它们和像素p 之间的距离 ,这些像素称为像素p 的弱4—邻接,记为


图2.1 象素间的关系

2.2.3 连通性

由一些彼此邻接的像素组成的集合称为区域(Region)。更具体的描述性说法是:如果定义像素P 和像素的路径为一个像素序列的邻接点,,且其中任意两个像素的颜色属性满足某个特定的相似准则(如颜色相同);那么,区域是指这样的集合,其中任意两个像素之间都存在着完全属于该集合的路径。

如果两个像素之间存在一条路径,则称这些像素是连通的(Contiguous)。因此,区域也可以认为是彼此连通的像素的集合。像素之间的连通性是建立图像中物体的边界和确定区域的元素时是一个重要的概念,它可以进一步分成连接和连通,连接是连通的一个特例[56] 。要确定2 个像素是否连接时,需要在某种意义上确定他们是否邻接(例如它们是否是8-邻接)以及它们的颜色属性是否满足某个特点的相似准则(如颜色距离在一定的范围内)。

§2.3 图像的灰度化处理

在数字图像处理中,灰度直方图是一种最简单、最有用的工具之一,它概括了一幅图像的灰度级内容。任何一幅图像的灰度直方图都包括了可观的信息,某些类型的图像还可由其直方图完全描述。需要说明的是,一幅图像唯一对应一幅直方图,但是一幅直方图则有可能对应无数幅图像,这一点不难理解,因为灰度直方图反映的只是图像中各级灰度的统计数目,而与图像中各级灰度象素的分布位置无关。灰度图像是建立灰度直方图的基础,因此下面先介绍彩色图像的灰度化处理。

2.3.1 图像的灰度化处理

数字图像的灰度化处理是指把彩色图像转化为灰度图像的处理过程。灰度图像是由灰度像素组成的,所谓灰度像素就是指:在RGB 颜色模型下,图像中每个像素颜色的R、G、B 三种基色的分量值相等的像素。在RGB 颜色模型下,RGB 三原色的取值都是0~255 之间的整数。因此,灰度图像只能表现256 种颜色(或亮度)。通常把灰度图像中像素的亮度称为灰度值。

灰度化处理的方法有很多种方法,经常使用的方法主要有如下三种:

1、最大值法:使R、G、B 的值等于三个值中最大的一个,即:

R = G = B = max(R,G, B)

用最大值法对彩色图像进行灰度化处理会使图像的整体亮度增强。

2、平均值法:对R、G、B 求出平均值,即:

R = G = B = (R,G,B) / 3

采用平均法对彩色图像进行灰度化处理会形成比较柔和的灰度图像。

3、加权平均值法:根据三种基色的重要性或其他指标给R、G、B 赋予不同的权值,即:

其中,分别为R、G、B 的权值。取不同的值,加权平均值法将形成不同的灰度图像。由于人眼对绿色的敏感度最高,对红色的敏感度次之,对蓝色的敏感度最低,因此使将得到比较合理的灰度图像。实验和理论推导证明,

时,即:



此时,R、G、B 的取值就是该像素的灰度值,此时得到的灰度图像最合理。对于这个灰度值计算公式,我们并不陌生,它也是图像灰度化处理最常用的一个公式。由RGB 颜色模型和YIQ 颜色模型之间线性变换公式可得:
 


由此可见,这两个公式完全一致。

2.3.2 灰度直方图

灰度直方图反映一幅图像的总体灰度分布,它是灰度级的函数,描述的是图像中每一灰度级与其出现的个数,其横坐标是灰度级,纵坐标表示该灰度级出现的频数。在离散形式下,用g 表示灰度级,用P(g) 表示该灰度级出现的频数,则下式成立:

式中为图像中出现这种灰度级的像素的个数,n 为图像中像素总数。在直角坐标系中作出之间关系的图形就称为灰度直方图。如下就是本文处理的对象类与其对应的直方图,从右边的直方图可以看出,原图像在高灰度段,各种要素的灰度值并没有明显分开,互相混杂有其他颜色的象素,这就给通常的分色处理带来了困难。

需要说明一点的就是,一幅图象对应一个直方图,但是一个直方图并不一定只对应一幅图象。几幅图象只要灰度分布密度相同,那么它们的直方图也是相同的。


(a)图像 (b) 直方图
图 2.2 图像及其对应的直方图

§2.4 数学形态学处理

数学形态学(Mathematical Morphology)[56] 是一种应用于图像处理和模式识别领域的新方法。形态学是生物学的一个分支,常用来处理动物和植物的形状和结构。数学形态学是建立在严格的数学理论基础上的科学。用于描述数学形态学的语言是集合论,利用数学形态学对物体几何结构的分析过程就是主客体相互逼近的过程。利用数学形态学的几个基本概念和运算,将结构元素灵活的组合、分解,应用形态变换序列达到分析的目的。

2.4.1 基本概念

在数学意义上,我们用形态学来处理一些图像,用以描述某些区域的形状如边界曲线、骨架结构和凸形外壳。另外,我们也可用形态学技术进行预测和快速处理如形态过滤、形态细化、形态修饰等。而这些处理都是基于一些基本运算实现的。用于描述形态学的语言是集合论。集合代表图像中物体的形状,例如:在二值图像中所有的黑色像素点的集合就是这幅图像的完整描述。在二值图像中,当前集合是指二维整形空间的成员,集合中的每个元素就是一个二维变量,用(x, y) 表示。按规则代表图像中的一个黑色像素点。灰度数字图像可以用三维集合来表示。在这种情况下,集合中每个元素的前两个元素表示像素点的坐标,第三个变量代表离散的灰度值。在更高维的空间集合中可以包括
其他的图像属性,如颜色和时间。

形态学运算的质量取决于所选取的结构元素和形态变换。结构元的选择要根据具体情况来确定,而形态运算的选择必须满足一些基本的约束条件。这些约束条件称为图像定量分析的原则。下面列出了数学形态学的几条定量分析原则:

1、平移不变性

设待分析的图像为X, 表示某种图像变换或运算,表示X 经变换或运算后的新图像。设h 为一矢量,Xh 表示将图像X 平移一个位移矢量后的结果,那么,平移不变性原则可表示为:



此式说明,图像X 先平移然后变换的结果与图像先变换后平移的结果相一致。

2、尺度变换不变性

设缩放因子是一个正的实常数,表示对图像X 所做的相似变换,则尺度变换不变性可表示如下:

 

如果设图像运算 的腐蚀,则上式具体化为



3、局部知识原理

如果Z 是一个图形(闭集),则相对于Z 存在另一个闭集 ,使得对于图形X 有下式成立:



可以将Z 理解为一个“掩模”。在实际中,观察某一个对象时,每次只能观察一个局部,即某一掩模覆盖的部分 。该原则要求对每种确定的变换或运算,当掩模Z 选定以后,都能找到一个相应的模板,使得通过所观察到的局部性质,即与整体
性质相一致。

4、半连续原理

在研究一幅图像时,常采用逐步逼近的方法,即对图像X 的研究往往需要通过一系列图像 的研究实现,其中诸个Xn 逐步逼近X。半连续原理要求各种图像变换后应满足这样的性质:对真实图像X 的处理结果应包含在对一系列图像Xn 的处理结果内。

5、形态运算的基本性质

除了一些特殊情况外,数学形态学处理一般都是不可逆的。实际上,对图像进行重构的思想在该情况下是不恰当的。任何形态处理的目的都是通过变换法去除不感兴趣的信息,保留感兴趣的信息。在形态运算中的几个关键性质如下:
 
 

2.4.2 基本定义

集合论是数学形态学的基础,在这里我们首先对集合论的一些基本概念作一总结性的概括介绍。对于形态处理的讨论,我们将从两个最基本的模加处理和模减处理开始。它们是以后大多数形态处理的基础。

1、集合

具有某种性质的确定的有区别的事物的全体。如果某种事物不存在,称为空集。集合常用大写字母A,B,C,… 表示,空集用表示。

设E 为一自由空间, ,则集合X 和B 之间只能有以下三种形式(如图2.3 所示):



图2.3 B1 击中X,B2 相离于X,B3 包含于X

2、元素

构成集合的每一个事物称之为元素。元素常用小写字母a,b,c,… 表示,应注意的是, 任何事物都不是空集的元素。

3、位移

定义,对集合A 的位移转换为
 


4、子集

当且仅当集合A 的所有元素都属于B 时,称A 是B 的子集。

5、补集

定义集合A 的补集为:

6、差集

定义集合A 和B 的差集为:

7、映像

定义集合A 的映像为

8、并集

由A 和B 的所有元素组成的集合称为A 和B 的并集。

9、交集

由A 和B 的公共元素组成的集合称为A 和B 的交集。

2.4.3 二值形态学的基本运算

二值形态学中的运算对象是集合,但是实际运算中当涉及两个集合时并不把他们看作是互相对等的。一般设A 为图像集合, B 为结构元素,数学形态学运算是用B 对A 进行操作。

这里的结构元素本身实际上也是一个图像集合。

1、膨胀

膨胀的运算符为, A 用B 来膨胀写作A B ,其定义为:

上式表明用B 膨胀A 的过程是,先对B 做关于原点的映射,再将其映象平移x ,这里A与B 映象的交集不为空。换句话说,用B 来膨胀A 得到的集合是 的位移与A 至少有一个非零元素相交时B 的原点位置的集合。根据这个解释,式(2.1)也可以写为
 

如果将B 看作一个卷积模板,膨胀就是先对B 作关于原点的映射,再将映象连续地在A 上移动而实现的。

2、腐蚀

A 被B 腐蚀,表示为,其定义为:

上式表明A 用B 腐蚀的结果是所有x 的集合,其中B 平移x 后仍在A 中。也就是说,用B 来腐蚀A 得到的集合是B 完全包含在A 中时B 的原点位置的集合。

膨胀和腐蚀这两种运算是紧密联系在一起的,一个运算对图像目标的操作相当于另一个运算对图像背景的操作。根据前面关于集合补集和映象的定义,可把膨胀和腐蚀运算的对偶性表示为

3、开运算

图像B 对A 作开运算,用符号 表示,其定义为:

为了更好的理解开运算,有下面的等价方程:

这个方程表明,开运算可以通过计算所有可以填入图像内部结构元素平移的并求得,即对每一个可填入位置作标记,计算结构元素平移到每一个标记位置时的并,便可得到开运算的结果。事实上,这正是先作腐蚀,后膨胀的结果。

4、闭运算

闭运算是开运算的对偶运算,定义为先作膨胀后作腐蚀。利用B 对A 作闭运算,表示为

,其定义为:

因为闭为开的对偶运算,所以满足以下的关系:

同时,开也为闭的对偶运算:

§2.5 平滑处理

图像平滑的目的是为了消除噪声,其方法可以分为空间域和频率域。这里主要介绍一下邻域平均和中值滤波两种方法。

2.5.1 邻域平均法

邻域平均法是一种局部空间域的处理算法。设一幅图象f (x, y) 为N ´ N 的阵列,平滑后的图象为g(x, y) ,它的每个象素的灰度级由包含在(x, y) 的预定邻域的几个象素的灰度级的平均值所决定,即用下式得到平滑的图象:

使用该方法可以去除图像中的一些噪声,但是同时也会使图像变得模糊,特别是边缘部分。


(a) 原图                                                            (b) 平滑结果
图2.4 图像的平滑效果

2.5.2 中值滤波

中值滤波是一种非线性的信号处理方法,与其对应的中值滤波器当然也就是一种非线性的滤波器。中值滤波器在1971 年由J.w.Jukey 首先提出并应用在一维信号处理技术(时间序列分析)中,后来被二维图像信号处理技术所引用。中值滤波在一定条件下可以克服线性滤波器如最小均方滤波,均值滤波等带来的图像细节模糊,而且对滤波脉冲干扰及图像扫描噪声最为有效。由于在实际运算过程中,不需要图像的统计特征,因此这也带来不少方便。但是对于一些细节多,特别是点、线、尖顶细节多的图像不宜采用中值滤波。

中值滤波就是采用一个含有奇数个点的滑动窗口,将窗口正中那点值用窗口内各点的中值来替代。假设窗口有5 个点,其值为80,90,200,110,120,那么此窗口内各点的中值为110。在实际使用窗口时,窗口的尺寸一般先用3 再取5 逐点增大,直到取得满意的滤波效果为止。它可以用来减弱随机干扰脉冲干扰,并且在去除噪声的同时保持图像的边缘。使用该方法值得注意的是要保持图象中有效的细线状物体,如果图象中点、线、尖角细节较多,则不宜采用中值滤波。

§2.6 锐化处理

图像锐化处理的目的是使模糊的图像变得更加清晰起来。图像的模糊实质就是图像受到平均或积分运算造成的,因此可以对图像进行逆运算如微分运算来使图像清晰化。从频谱角度来分析,图像模糊的实质是其高频分量被衰减,因而可以通过高通滤波操作来清晰图像。但要注意,能够进行锐化处理的图像必须具有较高的信噪比,否则锐化后图像信噪比反而更低,从而使噪声增加的比信号还多,因此一般是先去除或减轻噪声后再进行锐化处理。图像锐化一般有两种方法:微分法和高通滤波法。这里主要介绍一种常用的锐化方法:梯度锐化。

设图像为f (x, y) ,定义f (x, y) 在点(x, y) 处的梯度矢量为:

梯度有两个重要的性质:

1 梯度的方向在函数f (x, y) 最大变化率方向上。

2 梯度的幅度用G[ f (x, y)] 表示,其值为:

由此可以得到这样的结论:梯度的数值就是f (x, y) 在其最大变化率方向上的单位距离所增加的量。

对于离散的数字图像,上式可以写成:

为了计算方便,也可以采用下面的近似计算公式:

如果直接用梯度值G[ f (x, y)] 来表示图像,即令g(x, y) =G[ f (x, y)] ,由上面的公式可以看出,在图像变化缓慢的地方其值很小,而在线条轮廓等变化较快地方的值很大。这就是图像在经过梯度运算后使其清晰从而达到锐化的目的。

由于在图像变化缓慢的地方梯度很小,所以图像会显得很暗,通常的做法是给一个阈值 小于该阈值,则保持原灰度值不便;否则,则将该点灰度值赋为


(a) 原图                                                                  (b) 锐化结果
图2.5 图像的锐化效果

§2.7 细化处理

图像的骨架, 是指图像中央的骨骼部分。图像的骨架是描述图像的几何及拓扑性质的重要特征之一。求一个图像骨架的过程称为图像的“细化”过程。在图像处理中, 对图像进行细化有助于突出形状特征和减少冗余的信息量, 这在图像的处理和分析中具有重要的意义。关于图像的细化, 已有许多研究, 各种方法都各具特色, 各有优缺点。对细化结果的一般要求是:细化结果是原目标图像的中心线;保证细化后目标图像的连通性;保留目标图像的端点;空间小、速度快。文献【57】给出了一种比较详细的细化算法。

§2.8 图像分割

在对图像的研究和应用中,人们往往仅对各幅图像中的某些部分感兴趣,这些部分通常称为目标或前景(其他部分称为背景),它们一般对应图像中特定的、具有独特性质的区域。为了辨识和分析目标,需要将这些有关区域分析提取出来,在此基础上对目标进一步利用,如进行特征提取和测量。图像分割[58] 就是把图像分成各具特性的区域并提取出感兴趣目标的技术和过程。这里特性可以是灰度、颜色、纹理等,目标可以对应单个区域,也可以对应多个区域。图像分割多年来一直得到人们的高度重视,至今已经提出了上千种各种类型的分割算法。这里主要介绍两种方法:灰度阈值法和边缘检测。

2.8.1 灰度阈值法

最常见的图像分割方法是把图像灰度分成不同的等级,然后用阈值的方法确定有意义的区域或欲分割物体的边界,我们称图像的这种分割方法为灰度阈值法。

在利用灰度阈值法分割灰度图像时,一般对图像都有一定的假设。也就是说,灰度阈值法是基于一定的图像模型的。最常用的模型描述如下:假设图像是由具有单峰灰度分布的目标和背景组成,在目标或背景内部的相邻像素之间的灰度是高度相关的,但在目标和背景交界出两边的像素在灰度值上有很大的差别。对于此类图像,只要选择一个合适的灰度阈值就能把图像中的目标和图像背景完全分割,我们称这种图像分割方法为单阈值法。如果图像中有灰度值不同的区域,单阈值法就无法完全分割图像。此时,我们可以选择一系列的阈值以便把图像中的每个目标和图像背景完全分割。这种在分割图像时需要选择多个阈值的分割方法称为多阈值法。

在一般的单阈值法情况下,使用阈值规则进行图像分割时,所有灰度值大于或等于某阈值的像素都被判属于物体;所有灰度值小于该阈值的像素都被排除在物体之外。假设待分割的图像为f (x, y) ,则采用单阈值法分割后的图像g(x, y) 可以定义为:

式中:的背景灰度值。

在一般的多阈值法的情况下,待分割的图像为f (x, y) 分割后的图像g(x, y) 可以表示为:

式中:k 表示赋予分割后图像各个区域的不同标号,  Tk 为分割阈值, 为分割后图像g(x, y) 中物体的灰度值,GB  为分割后图像g(x, y) 的背景灰度值。

公式(2.16)中,若 ,则图像g(x, y) 称为二值图像;类似地,式(2.17)中,如果对于 ,则g(x, y) 为二值图像。从原始图像f (x, y) 经灰度阈值法分割得到图像g(x, y) 的处理过程称为图像的二值化处理。

选择正确的阈值是灰度阈值法分割成功的关键,这种阈值的选择可以通过交互的方式确定下来,也可以根据某些阈值检测方法来确定。文献【59,60,61】中介绍了一些很好的阈值检测方法。

2.8.2 边缘检测

边缘是指图像变化最为显著的位置,物体的边缘是以图像局部特性的不连续性的形式出现,如灰度的突变等。从本质上说,边缘通常意味着一个区域的终结和另一个区域的开始。边缘检测是通过边缘检测算子找到物体的边缘,边缘检测算子是一组用在图像强度函数中定位变化重要的局部图像预处理方法。图像中的边缘通常与图像强度的一阶导数的不连续性有关。由于边缘是图像变化最剧烈的地方,采用微分处理将得到较高的值。

梯度是图像处理中最常用的一次微分方法,它是函数变化的一种度量,而一幅图像可以看作是图像强度连续函数的采样阵列。图像函数f (x, y) 在(x, y) 点的梯度幅值为。可见图像经过梯度运算能灵敏地检测出界线,而克服导数运算的方向性。但是梯度运算比较复杂,可以采用一些近似计算,以获得既能满足要求又使运算简单的方法。

对于数字图像,可用一阶差分代替一阶微分:

根据梯度的定义,图像f (x, y) 的梯度幅值为:

有时为了避免平方和开方运算,也可以将幅值用两个分量绝对值之和或最大绝对值来表示,即:

在图像边缘检测中,还经常使用Robert 梯度算子和Sobel 梯度算子。Robert 算子采用的是对角线两个像素之差,即:

Sobel 算子是先做加权平均,然后再微分,即:

Robert 梯度是以为中心的,是在这个中心上连续梯度的近似,从图像处理的实际效果来看,用Robert 算子检测边缘较好;Sobel 梯度有一定的抑制噪声的能力,在检测阶跃的边缘时得到的边缘宽至少有二个像素。

另外,还有一些其它的边缘检测方法,如二阶微分算子、Canny 边缘检测法等,这些方法在文献【30,35,36】中有详细的论述,在此将不作介绍。

 

<<上一节    下一节>>




 
关于我们 | 诚邀加盟 | 客户服务 | 相关法律 | 网站地图 | 友情链接 | 服务信箱:service@eefocus.com
© 2006 与非门科技信息咨询(北京)有限公司 All Rights Reserved.