数字图像处理基本概念和理论是识别与提取栅格交通地图图像中道路网络的理论基础。本章主要介绍一些必要的数字图像处理的基本理论和方法,它们包括:颜色模型、数字图像基本概念、灰度直方图、中值滤波、图像分割、图像识别以及数学形态学。
2.1 颜色模型
人类所处的自然界是一个丰富多彩的世界,各类物体的颜色千变万化。但是,在计算机中用数字表示各种色彩却并不容易。目前,数字图像处理中,有三种常用的颜色坐标系(或称颜色模型)。这三种颜色模型是:RGB 颜色模型、YIQ 颜色模型和HSI 颜色模型。
1. RGB 颜色模型
用红色(R)、绿色(G)、蓝色(B)三种颜色分量表示的颜色模型称为RGB 颜色模型,其中红色、绿色和蓝色三个基本的颜色分量被称为RGB 三基色或RGB 三原色。在RGB 颜色模型中,每种颜色都是由红色、绿色和蓝色三种颜色调和而成,每种基色被限定为0~255之间的整数。在现实生活中,RGB 颜色模型是最常用的颜色模型之一。例如:在彩色照相机中,图像中的各种颜色都是由三层不同的摄影乳剂合成;彩色打印机打印出来的色彩也是由红、绿、蓝三基色按照一定的比例合成的;在计算机中,每个像素的颜色也是由RGB 三 原色混合得到的。目前,这种颜色模型已经被广泛应用到数字图像处理中;本文将主要采用这种颜色模型。
2. YIQ 颜色模型
YIQ 颜色模型(有时也称IYQ)主要用于彩色电视广播中。为了有效地传输并与黑白电视兼容,YIQ 是一种RGB 的编码,它是RGB 表示的一个简单线性变换【30】:

YIQ 颜色模型是利用人的可视系统对亮度变化比对色调和饱和度变化更敏感而设计的。它成为普遍应用的标准是因为在图像处理中YIQ 颜色模型的主要优点是去掉了亮度(Y)和颜色信息(I 和Q)之间的紧密联系。亮度是与人眼获得光的总量成比例的,去掉这种联系的重要性在于处理图像的亮度成份时能在不影响图像颜色成份的情况下进行。
3. HSI 颜色模型
RGB 颜色模型是从物理学的角度出发描述颜色的,而HIS 颜色模型则是从人眼的主观感觉出发描述颜色。人眼一般不能直接准确地感觉红色、绿色和蓝色三种颜色的比例,只能通过感知颜色的亮(Intensity)、色调(Hue)和饱和度(Saturation)来区分物体。HIS 颜色模型和RGB 颜色模型之间可以通过非线性变换来相互转换【30】:

HIS 颜色模型的重要性在于两个方面:第一,去掉了亮度成份(I )在图像中和颜色信息的联系;第二,色调和饱和度成份与人们获得颜色的方式密切相关。这些特征使得HIS 颜色模型成为一个理想的研究图像处理运算法则的工具,这些法则基于人的视觉系统的一些颜色感觉特性。
2.2 数字图像处理的基本概念
本节将介绍一些图像的基本概念,这些概念包括图像和数字图像、数字图像的矩阵表示及图像中像素之间的关系。
2.2.1 图像和数字图像
图像对我们并不陌生。它是用各种观测系统以不同的形式和手段观测客观世界而获得的,可以直接或间接作用于人眼并进而产生视知觉的实体【31】。图像中包含大量的信息,它是人类传递信息的主要媒介和重要手段。据统计,在人类接触的信息中,听觉占20%,视觉占60%,其它如味觉、触觉、嗅觉等占20%【32】。
当用数学方法描述图像信息时,通常着重于考虑它的点的性质。例如,一幅图像可以被看作是空间各个坐标点上强度的函数。它的数学表达式【32,33】可以定义为:
I = f (x, y, z,l ,t)
其中: (x, y, z) 是三维空间的坐标,l 是波长, t 是时间, I 是图像的强度。在本文的讨论范围内,认为一幅图像是二维平面的单色静止图像。因此,空间坐标变量(x, y, z) 、波长l和时间变量t 可以从函数f 中去除。这样,一幅图像就可以用下面的二维函数来表示:
I = f (x, y)
常见的图像一般是连续的,即f 、x 、y 的值可以是任意实数。为了能用计算机对图像进行处理,必须要对二维函数f (x, y) 进行采样和量化(即离散处理)。连续图像(也称物理图像)的离散化处理过程称为数字化,连续图像经过数字化得到的图像称为数字图像。连续图像f (x, y) 经过数字化得到的数字图像可以用I (r, c) 表示。这里, (r, c) 表示数字化后的(x, y) ,其中r 表示图像的行(row), c 代表图像的列(column)。
2.2.2 数字图像的矩阵表示
数字图像在计算机中一般都是以点阵的形式存储和表示的【33】。图2.1 是一幅典型的数字图像,所用的坐标系统常在屏幕显示中使用,坐标原点O 在图像的左上角,纵坐标标记图像的行,横坐标标记图像的列。I (r, c) 既可以代表这幅图像,也可以表示坐标为(r, c) 的像素的亮度。

对于一幅采用RGB 颜色模型描述的数字图像(如图2.1)来说,它是由一些具有RGB三基色特征的像素组成,图像中的每个像素的颜色都是由RGB 三基色按照一定的比例调和而成的。也就是说,在RGB 颜色模型下,一幅彩色数字图像是所有构成该图像的像素的集合,并且集合中所有像素的颜色都是由RGB 三原色混合而成。在RGB 颜色模型下,数字图像可以采用下面的二维矩阵表示:

2.2.3 像素间联系
一幅数字图像由有限个数的像素组成,每个像素都具有两个属性:位置和颜色。通常像素是按照矩阵采样栅格布置的,因此一般采用二维矩阵描述这样的数字图像。用矩阵元素的行列来表示像素的位置,矩阵元素一般是整数和整数向量用来描述像素的颜色信息。数字图像的各个像素之间存在一些重要的联系,如像素之间的距离、邻接性和连通性等。本节将着重讨论像素之间的这些关系。



如果两个像素之间存在一条路径,则称这些像素是连通的(Contiguous)。因此,区域也可以认为是彼此连通的像素的集合。像素之间的连通性是建立图像中物体的边界和确定区域的元素时是一个重要的概念,它可以进一步分成连接和连通,连接是连通的一个特例【31】。要确定2 个像素是否连接时,需要在某种意义上确定他们是否邻接(例如它们是否是8-邻接)以及它们的颜色属性是否满足某个特点的相似准则(如颜色距离在一定的范围内)。
2.3 灰度直方图
在数字图像处理中,灰度直方图是一种最简单、最有用的工具之一,它概括了一幅图像的灰度级内容【34】。任何一幅图像的灰度直方图都包括了客观的信息,某些类型的图像的直方图还可以由其直方图完全描述出来。灰度图像是建立灰度直方图的基础,因此下面先介绍彩色图像的灰度化处理。
2.3.1 图像的灰度化处理
数字图像的灰度化处理是指把彩色图像转化为灰度图像的处理过程。灰度图像是由灰度像素组成的,所谓灰度像素就是指:在RGB 颜色模型下,图像中每个像素颜色的R、G、B三种基色的分量值相等的像素。在RGB 颜色模型下,RGB 三原色的取值都是0~255 之间的整数。因此,灰度图像只能表现256 种颜色(或亮度)。通常把灰度图像中像素的亮度称为灰度值。
灰度化处理的方法有很多种方法,经常使用的方法主要有如下三种:
1、最大值法:使R、G、B 的值等于三个值中最大的一个,即:R = G = B = max(R,G, B)用最大值法对彩色图像进行灰度化处理会使图像的整体亮度增强。
2、平均值法:对R、G、B 求出平均值,即:R = G = B = (R,G,B) / 3采用平均法对彩色图像进行灰度化处理会形成比较柔和的灰度图像。
3、加权平均值法:根据三种基色的重要性或其他指标给R、G、B 赋予不同的权值,即:
8
R = G = B = 0.299R + 0.587G + 0.114B (2.3.1.1)
此时,R、G、B 的取值就是该像素的灰度值,此时得到的灰度图像最合理。对于这个灰度值计算公式,我们并不陌生。由RGB 颜色模型和YIQ 颜色模型之间线性变换公式可得:
Y = 0.299R + 0.587G + 0.114B (2.3.1.2)
由此可见,公式(2.3.1.1)和公式(2.3.1.2)完全一致。
2.3.2 灰度直方图
灰度直方图反映一幅图像的总体灰度分布,它是灰度级的函数,描述的是图像中具有某灰度级的像素的个数,其横坐标是灰度级,纵坐标表示该灰度级出现的频数【34】。在离散形式下,用g 表示灰度级,用P(g) 表示该灰度级出现的频数,则下式【32】成立:

灰度直方图是一幅图像中各个灰度级出现频数的统计结果,它只能反映图像中不同灰度像素出现的频率,而不能反映出某灰度像素所在的位置【33】。也就是说,它只包含了该图像中某灰度级像素出现的概率,而丢失了其所在的位置信息。任何一幅图像只能有一个灰度直方图与之对应,但不同的图像可能有相同的灰度直方图,即图像和灰度直方图之间是一种多对一的映射关系【33】。
2.4 中值滤波
中值滤波是一种最常用的非线性滤波技术,它是一种基于邻域的运算方法,但计算的不是加权求和,而是把邻域中的所有像素按灰度级进行排序,然后选择该组中的中间值作为输出像素值。由此可知,中值滤波的基本原理是把数字图像或数字序列中一点的值用该点的一个邻域中所有点值的中值代替【32】。中值的定义如下:

例如: 数字序列(80,90,200,110,130)的中值为110
数字序列(60,200,80,120)的中值为100。
通常,把数字图像中一个像素的特定长度或形状的邻域称为窗口。中值滤波器是一个含有奇数个像素的滑动窗口,窗口正中间的那个像素的值用窗口中所有像素的中值代替【32】。中值滤波是一种去除图像中噪声的非线性处理方法,在某些情况下可以做到既去除噪声又保护物体边缘的满意效果。一般来说,小于中值滤波器面积一半的亮或暗的物体基本上会被虑除掉,而较大的物体几乎原封不动地被保存下来【34】。因此,中值滤波器的空间尺度必须根据待处理问题的不同而进行相应的调整。图2.3 是中值滤波的实例。图(a)是原始图像,图(b)是1x3 窗口中值滤波结果,图(c)是3x3 窗口中值滤波结果,图(d)是5x5 窗口中值滤波结果。

2.5 图像分割
在图像的研究和应用中,人们往往只对图像中的某些部分感兴趣,这些部分通常被称为目标。它一般对应于图像中特定的、具有独特性质的区域。有些目标可以被定位于完全分割(complete segmentation),其结果是唯一一组对应于输入图像的环相交区域;有些目标只能定位于部分分割(partial segmentation),其中区域并不直接对应于图像物体。为了获得完全分割,必须使用相关领域的专门知识的较高层次处理。然而,也有完整的一类分割问题可以仅用低层处理就可以成功地解决。这种情况下,这类图像通常是由在均匀背景上的对比度较强的物体组成。例如:印刷字符等可以使用简单的全局方法就可以得到将图像划分为物体 和背景的完全分割。这种处理与上下文无关,也没有使用有关物体的模型,有关分割结果的期望知识对最终分割也没有贡献。
如果目标是部分分割,则图像被划分为分开的、相对于某个选择的性质是同态的区域,可选择的性质是灰度、颜色、纹理等【30】。如果处理的是复杂场景的图像,例如:城市场景的航拍照片,其结果也许是有重叠的同态区域。这样最终的图像分割必须经过进一步处理,并借助于高层信息找到最终的图像分割,在这个阶段,通常并不能获得完全正确的复杂场景的完全分割。
图像分割的方法有很多,下面将介绍两种方法:灰度阈值法和边缘检测。
2.5.1 灰度阈值法
最常见的图像分割方法是把图像灰度分成不同的等级,然后用阈值的方法确定有意义的区域或欲分割物体的边界【32】,我们称图像的这种分割方法为灰度阈值法。
在利用灰度阈值法分割灰度图像时,一般对图像都有一定的假设。也就是说,灰度阈值法是基于一定的图像模型的。最常用的模型描述如下:假设图像是由具有单峰灰度分布的目标和背景组成,在目标或背景内部的相邻像素之间的灰度是高度相关的,但在目标和背景交界出两边的像素在灰度值上有很大的差别【31】。对于此类图像,只要选择一个合适的灰度阈值就能把图像中的目标和图像背景完全分割,我们称这种图像分割方法为单阈值法。如果图像中有灰度值不同的区域,单阈值法就无法完全分割图像。此时,我们可以选择一系列的阈值以便把图像中的每个目标和图像背景完全分割。这种在分割图像时需要选择多个阈值的分割方法称为多阈值法。
在一般的单阈值法情况下,使用阈值规则进行图像分割时,所有灰度值大于或等于某阈值的像素都被判属于物体;所有灰度值小于该阈值的像素都被排除在物体之外【34】。假设待分割的图像为f (x, y) ,则采用单阈值法分割后的图像g(x, y) 可以定义为:

2.5.2 边缘检测
边缘是指图像变化最为显著的位置,物体的边缘是以图像局部特性的不连续性的形式出现,如灰度的突变等。从本质上说,边缘通常意味着一个区域的终结和另一个区域的开始。边缘检测是通过边缘检测算子找到物体的边缘,边缘检测算子是一组用在图像强度函数中定位变化重要的局部图像预处理方法。图像中的边缘通常与图像强度的一阶导数的不连续性有关。由于边缘是图像变化最剧烈的地方,采用微分处理将得到较高的值。
梯度是图像处理中最常用的一次微分方法,它是函数变化的一种度量,而一幅图像可以看作是图像强度连续函数的采样阵列。图像函数f (x, y) 在(x, y) 点的梯度幅值为



另外,还有一些其它的边缘检测方法,如二阶微分算子、Canny 边缘检测法等,这些方法在文献【30,35,36】中有详细的论述,在此将不作介绍。
2.6 图像识别
模式识别是随着计算机的发展而兴起的一门新的技术科学。自上世纪50 年代末期以来,模式识别已经得到了迅速的发展和广泛的应用。模式识别研究的目的是构造自动处理某些信息的机器系统,以代替人完成分类和辨识目标的任务。在具有视觉能力的图像识别中,许多方法和概念可以从人类认识图像的过程中直接移植过来。人类在现实生活中要区别各种现象、物体和声音等,一般总是首先抓住它们的特征进行比较、分析、判断,从而将它们分类或识别。特别是数理统计和模糊数学的发展,总结了人们的认识逻辑,从而也使图像识别有了理论基础【32】。
图像识别的基本理论和方法是移植于模式识别,模式识别的基本理论和方法在一些文献【37,38,39】中有详细的讨论。下面只介绍两种图像识别技术或方法:基于颜色一致性的聚类分析和模板匹配。
2.6.1 颜色一致性聚类分析
颜色一致性是指颜色空间中的两种颜色在某种相似性测度下是一致的。例如,在人眼可以分辨的每个灰度级内,同一个灰度级内的各种颜色是一致的。然而,对于计算机来说,人眼中的同一个灰度级内的不同颜色之间却存在较大的差异。由于颜色距离公式可以用来描述两种颜色之间的差异程度,因此,在计算机的世界里,颜色距离公式作为一种颜色一致性的相似性测度。如果两种颜色距离小于某个阈值,则这两种颜色可以被认为是一致的。
聚类分析是根据待处理的模式集合中各个元素之间的相似性将其分为若干个子集合(聚类),每个聚类所包含的模式代表了在被选特征及相似准则意义下比较相近的物体,不相近的物体被分成不同的类别【30】。
综上所述,基于颜色一致性的聚类分析就是根据颜色的某种相似性测度把待处理的模式集合中各个元素分成不同的子集合。
2.6.2 模板匹配
模板匹配是模式识别中最原始、最基本的方法,它是一种统计识别方法。每个模板与未知样品匹配的好坏,取决与模板上各个单元与样品上各个相应单元的匹配与否,若处于模板与样品上的绝大多数单元均相匹配,则称模板与样品“匹配得好”;反之则称“匹配得不好”【39】。模板匹配可以识别图像中已知的物体,也可以用于搜索图像中特殊的模式等。如果图像中出现的是模板的精确的复制,则模板匹配识别物体就非常容易。然而,图像中一般都存在一些噪声、局部几何变形等因素。因此,寻找绝对的匹配是部可能的,搜索最大匹配的位置更为合适。
假设有一个模板g(i, j) ,我们希望检测图像f (i, j) 中的模板情况。显而易见,把模板放置在图像的某个位置,通过比较模板的亮度值和图像中对应的值就可以检测模板在图像的哪个位置存在。由于噪声的存在,在图像中很难找到和模板完全匹配的位置,所以需要测量模板和图像之间的相似程度。下面定义了几种测量方法【35】,即:

上述的三种相似性测量值越小,则模板和图像之间的匹配程度越好。除此之外,还有一些其它的相似性测量方法,文献【30】中就定义了几种模板匹配的最优性标准。
模板匹配的局限在于模板只能平行移动。在旋转或大小变化的情况下,它是无效的;当物体只有部分可见时,它也无法工作。
2.7 数学形态学
形态学是生物学中研究动物和植物结构的一个分支,后来人们用数学形态学表示以形态为基础对图像进行分析的数学工具。数学形态学作为图像理解和图像识别的一个分支兴起于20 世纪60 年代,其主要倡导者是Matheron 和Serra。它是一门建立在严格的数学理论基础上的科学,用于描述数学形态学的数学基础和所用的语言是集合论。它的基本思想是用具有一定形态的结构元素去度量和提取图像中对应形状的目标以达到图像分析和识别的目的。下面,我们将对数学形态学的主要原理及方法作简要介绍,如果需要了解更加详细的数学形态学的原理及方法请参考文献【40】。
2.7.1 集合论基本概念
集合论是数学形态的基础,下面首先对集合论的一些基本概念作一个简要的介绍。
1、集合
具有某种性质的确定的有区别的事物的全体。如果某种事物不存在,称为空集。集合常用大写字母A,B,C,…表示,空集用Æ表示。


8、并集
由A 和B 的所有元素组成的集合称为A 和B 的并集。
9、交集
由A 和B 的公共元素组成的集合称为A 和B 的交集。
2.7.2 二值形态学
1、 腐蚀(Erosion)

方程(2.7.2.3)对于分析膨胀的性质非常有用。但是,要对输入图像的所有点作平移运算,因而计算量很大。与此相对,方程(2.7.2.2)仅需对结构元素中的所有点作平移,故运算量要小。

2.7.3 灰度形态学
上面针对二值图像的形态学处理的基本运算作了总结,这些基本运算可以方便的推广到灰度图像的处理。与二值图像形态学处理理论不同的是:待处理的对象是数字图像函数而不是集合。设f (x, y) 是输入图像,b(x, y) 是结构元素,它可被看作是一个子图像函数。如果Z 表示实整数的集合,同时假设(x, y) 是来自Z×Z 的整数, f 和b 是对坐标为(x, y) 像素灰度值的函数(来自实数集R 的实数)。如果灰度也是整数,则Z 可由整数R 所代替。

大”代替卷积求和并以“相加”代替相乘。由于本操作是由结构元素形状定义的邻域中选择f + b 的最大值,因而通常对灰度图像的膨胀处理方法可得到两种结果:(1)如果所有的结构元素都为正,则输出图像将趋向比输入图像亮。(2)黑色细节减少或去除取决于在膨胀操作中结构元素相关的值和形状。
2、灰度形态学腐蚀

与二值腐蚀的定义类似,所有的结构元素将完全包含在与被腐蚀的集合内,还应注意到上式与二维相关公式相似,只是用“最小”取代求和,用“减法”代替乘积。不同于二值腐蚀定义的是:操作中是f 在平移,而不是结构元素b 在平移。
正如上式所示,腐蚀是在结构元素定义的领域内选择( f - b) 的最小值,因而,通常对灰度图像的腐蚀处理可得到两种结果:(1)如果所有的结构元素都为正,则输出图像将趋向比输入图像暗;(2)在比结构元素还小的区域中的明亮细节经腐蚀处理后其效果将减弱。减弱的程度取决于环绕亮度区域的灰度值以及结构元素自身的形状和幅值。

经形态学梯度处理,使输入图像的灰度变化更加尖锐。运用对称的形态学结构元素获得的形态学梯度将较少受边缘方向的影响,这一优点的获得是以运算量的显著增加为代价的。图2.5 是灰度形态学各种算子应用与数字图像处理的实例。图2.5(a)是待处理的原始地图;图2.5(b)是经过灰度形态学膨胀运算得到的效果图;图2.5(c)是经过灰度形态学腐蚀运算得到的效果图;图2.5(d)是经过灰度形态学开运算得到的效果图;图2.5(e)是经过灰度形态学闭运算得到的效果图;图2.5(f)是经过灰度形态学梯度运算得到的效果图。




