容错控制的研究虽然面临着空前的挑战,但近些年来,相关研究领域,如鲁棒控制理论,模糊控制,神经网络控制研究的不断深入和发展,也给容错控制的研究带来了良好的机遇,提供了充分的条件。

 

而计算机控制技术、人工智能等技术的飞速发展,使得容错控制技术在实际工程中应用的可能性变得越来越大。

 

 

容错概念的由来

所谓容错:就是容许错误,是指设备的一个或多个关键部分发生故障时,能够自动地进行检测与诊断,并采取相应措施,保证设备维持其规定功能,或牺牲性能来保证设备在可接受范围内继续工作。

 

错误一般分为两类:第一类是先天性的固有错,如元器件生产过程中造成的错、线路与程序在设计过程中产生的错。这一类的错误需对其拆除、更换或修正,是不能容忍的。第二类是后天性的错,它是由于设备在运行中产生了缺陷所导致的故障。这种故障有瞬时性、间歇性和永久性的区别。 

 

容错技术是提高系统可靠性的重要途径。常采用的容错方法有硬件容错、软件容错、信息容错和时间容错。

 

提高系统的可靠性一般有两种办法:1、采用缜密的设计和质量控制方法来尽量减少故障出现的概率。2、以冗余资源为代价来换取可靠性。

 

利用前一种方法来提高系统的可靠性是有限的,要想进一步的提高必须采用容错技术。

 

容错控制技术在国外发展的比较早,是计算机奠基人之一,美籍匈牙利数学家冯•诺依曼提出的。随着八十年代微型计算机的迅速发展和广泛应用,容错技术也得到了飞速的发展,容错技术被应用到各个环境中。

 

我国的容错技术现在发展的也很迅速,一些重要的工作场合如航天、电厂等现在都采用了容错技术。


1、 智能容错的定义

智能容错 IFT(Intelligent Fault-Tolerance):就是设备在运行过程中一个或多个关键部件发生故障或即将发生故障之前,利用人工智能理论和方法,通过采取有效措施,对故障自动进行补偿、抑制、消除、修复,以保证设备继续安全、高效、可靠运行,或以牺牲性能损失为代价,保证设备在规定的时间内完成其预定功能。

 

硬件智能容错 HIFT (Hardware Intelligent Fault Tolerant) 主要采用硬件冗余技术。其基本思想是对设备的关键部件配备多重相似或相同部件,一旦检测和诊断出设备发生故障就可以立刻切换到备份部件,以达到故障容错的目的。

 

二冗余结构原理图

 

2、硬件智能容错方式的分类

硬件智能容错按其工作方式可以分为:静态冗余、动态冗余和混合冗余。

静态冗余容错是通过表决和比较屏蔽系统中出现的故障,如图

 

三模冗余(静态冗余)TMR 系统结构图

 

静态冗余容错的主要特点是:

(1)由于故障被屏蔽,所以不需要识别故障;

(2)容易与无冗余系统进行转换;

(3)所有模件都消耗能量。

 

动态冗余的主要方式是多重模块相继运行来维持设备正常工作。当检测到工作模块出现故障时,一个备用模块立即接替故障模块并投入工作。

 

动态冗余容错控制的主要特点是:

(1)仅有一个模件消耗能量;

(2)模件数目可随任务而改变,不会影响系统工作;

(3)转换装置和检测装置中任一故障都会导致系统失效。

 

 动态冗余容错控制结构图

 

混合冗余兼动态冗余和静态冗余之所长,通常用 H(n,k)来表示,如下图所示。图中的 V 为表决器,n 表示模块的总数,k 代表以表决方式实现静态冗余的模块数,而其余 N-K 个模块则作为表决系统中模块的备份。当参与表决的 k 个模块中(通常 k>=3)有一个模块出现故障时,备份就替代该模块参与表决,维持静态冗余系统的完整。当所有备份都被替换完后,系统就成为一般的表决系统。

 

如在硬件构成的逻辑系统中表决器是由开关电路实现的,而软件中表决需要通过软件断言 SA(Software Assertions)来实现。软件断言就是当软件在宿主系统中运行时,对其进程或功能的正确与否做出判断的条件。

 

 H(n,k)系统结构

 

3、智能容错的实现方法

智能容错的实现方法分为: (1)故障信号检测;(2)故障特征识别;(3)故障状态预测;(4)故障维修决策;(5)故障容错控制。

 

故障容错的目的在于针对不同的故障源和故障特征,采取相应的容错处理措施,对故障进行补偿、消除或自动修复,以保证设备继续安全可靠运行,或以牺牲性能损失为代价,保证设备在规定时间内完成其基本功能。

 

故障容错控制过程框图

 

冗余技术

高可靠性是过程控制系统的第一要求。为了达到高可靠性和低失效率相统一的目的,我们通常会在控制系统的设计和应用中采用冗余技术。合理的冗余设计将大大提高系统的可靠性,但是同时也增加了系统的复杂度和设计的难度,如何合理而有效的进行控制系统冗余设计,是值得研究的课题。

 

 1、冗余技术概念

冗余技术就是增加多余的设备,以保证系统更加可靠、安全地工作。

冗余的分类方法多种多样,按照在系统中所处的位置,冗余可分为元件级、部件级和系统级;按照冗余的程度可分为 1:1 冗余、1:2 冗余、1:n 冗余等多种。

在当前元器件可靠性不断提高的情况下,和其它形式的冗余方式相比,1:1 的部件级热冗余是一种有效而又相对简单、配置灵活的冗余技术实现方式,如 I/O 卡件冗余、电源冗余、主控制器冗余等。

因此,目前国内外主流的过程控制系统中大多采用了这种方式。当然,在某些局部设计中也有采用元件级或多种冗余方式组合的成功范例。

 

2、控制系统冗余的关键技术

冗余是一种高级的可靠性设计技术。1:1 热冗余也就是所谓的双重化,是其中一种有效的冗余方式,但它并不是两个部件简单的并联运行,而是需要硬件、软件、通讯等协同工作来实现。将互为冗余的两个部件构成一个有机的整体,通常包括以下多个技术要点:

 

1)信息同步技术

它是工作、备用部件之间实现无扰动(Bumpless)切换技术的前提,只有按控制实时性要求进行高速有效的信息同步,保证工作、备用部件步调一致地工作,才能实现冗余部件之间的无扰动切换。

 

在热备用工作方式下,其中一块处于工作状态(工作卡),实现系统的数据采集、运算、控制输出、网络通讯等功能;而另一块处于备用状态(备用卡),它实时跟踪工作卡的内部控制状态(即状态同步)。工作 / 备用卡件之间的正 / 负逻辑是互斥的,即一个为工作卡,另一个必定是备用卡;而且它们之间有冗余控制电路(又称工作 / 备用控制电路)和信息通讯电路,以协调两块卡件同时而且有序地运行,保证对外输入输出特性的同一性,即对于用户使用而言,可以认为只有一个部件。一般在设计中,工作、备用部件之间通过高速的冗余通讯通道(串行或并行)实现运行状态互检和控制状态的同步(如组态信息、输出阀位、控制参数等)。

 

2)故障检测技术

为了保证系统在出现故障时及时将冗余部分投入工作,必须有高精确的在线故障检测技术,实现故障发现、故障定位、故障隔离和故障报警。故障检测包括电源、微处理器、数据通讯链路、数据总线及 I/O 状态等。其中故障诊断包括故障自诊断和故障互检(工作、备用卡件之间的相互检查)

 

3)故障仲裁技术和切换技术

精确及时地发现故障后,还需要及时确定故障的部位、分析故障的严重性,依赖前文提到的冗余控制电路,对工作、备用故障状态进行分析、比较和仲裁,以判定是否需要进行工作 / 备用之间的状态切换。控制权切换到冗余备用部件还必须保证快速、安全、无扰动。当处于工作状态的部件出现故障(断电、复位、软件故障、硬件故障等)或者工作部件的故障较备用部件严重时,备用部件必须快速地无扰动地接替工作部件的所有控制任务,对现场控制不造成任何影响。同时要求切换时间应为毫秒级,甚至是微秒级,这样就不会因为该部件的故障而造成外部控制对象的失控或检测信息失效等等。另外,还需要尽快通过网络通讯或就地 LED 显示进行报警,通知用户出现故障的部件和故障情况,以便进行及时维护。

 

4)热插拔技术

为了保证容错系统具有高可靠性,必须尽量减少系统的平均修复时间 MTBR。要做到这一点,在设计上应努力提高单元的独立性、可修复性、故障可维护性。实现故障部件的在线维护和更换也是冗余技术的重要组成部分,它是实现控制系统故障部件快速修复技术的关键。部件的热插拔功能可以在不中断系统正常控制功能的情况下增加或更换组件,使系统平稳地运行。

 

5)故障隔离技术

冗余设计时,必须考虑工作、备用部件之间的故障应该做到尽可能互不影响或影响的概率相当小(0.01%),即可认为故障是隔离的。这样可以保证:处于备用状态的部件发生故障时,不会影响冗余工作部件或其他关联部件的正常运行,保证冗余的有效性。


随着工业自动化的飞速发展,工业部门对生产设备及控制系统的可靠性也提出了越来越高的要求。冗余技术提高了控制系统可靠性,满足了特殊工业部门的应用需求。