本文选自国家级期刊《农电管理》, 期刊简介:国内刊号:cn:11-3778/D,国际刊号:ISSN:1672-2450。由中国科学技术学会主管,中国电机工程学会主办.读者对象为供电企业的管理人员,包括:企业管理、人力资源、电力行业政策研究、会议报道、营销与服务、人物、消息等。
摘要:核电厂保护系统的可靠性直接影响核电厂的安全运行,如何保证保护系统的可靠性是系统设计必须解决的问题。FMEA是在产品设计开发过程中定位潜在故障的分析方法,在保护系统的设计开发过程中采用FMEA可以有效地消除或避免故障起因,预先确定或检测故障,减小故障的影响,从而提高核电厂保护系统的可靠性,保证核电厂安全。
关键词:反应堆保护系统,FMEA,风险评估
1、引言
核电厂保护系统探测电厂异常工况,并驱动适当的安全功能以实现并维持电厂的安全停堆工况,保证核电厂三大屏障的完整性。由于核电厂保护系统直接关系着核电厂的安全,必须严格执行“预防措施”,工程设计中最有效的、最全面的方式就是采用故障模式和影响分析(FMEA)进行可靠性分析。FMEA对各种可能的风险进行评价、分析,并对各种故障进行严重程度分级,确定薄弱环节,以便在现有的技术和基础上预防或减轻这些风险。
反应堆保护系统是核电厂重要的1E级安全仪控系统,产生触发安全驱动器和安全系统支持(辅助)设施动作所需驱动信号,防止反应堆状态超过规定的安全限值、或减轻超过安全限值后果的系统。它包括从过程变量的测量,到产生保护动作信号的所有有关的电气和机械装置和线路[1]。
3、故障模式和影响分析概述
在产品设计和制造时,通常有三道控制缺陷的步骤:避免或消除故障起因、预先确定或检测故障、减少故障的影响和后果。FMEA是帮助我们从第一道防线就将缺陷消灭在摇篮之中的有效工具。
FMEA是一种定性可靠性分析方法,也是FMA(故障模式分析)和FEA(故障影响分析)的组合。它对各种可能的风险进行评价、分析,以便在现有技术的基础上消除这些风险或将这些风险减小到可接受的水平。及时性是成功实施FMEA的最重要因素之一,它是一个“事前的行为”,而不是“事后的行为”。为达到最佳效益,FMEA必须在故障模式被引入产品之前进行。
3.1、FMEA的目的
ANSI/IEEE352-1987确定的FMEA目的[2]如下:
a.在设计的早期阶段,有助于选择高可靠性和高安全性的设计方案
b.确保考虑到所有可以想到的故障模式和它们对系统正常运行的影响
c.列举潜在故障和确定它们的影响程度
d.为试验计划、设计试验和校检系统建立早期的准则
e.为定量可靠性和可用性分析提供依据
f.提供历史文档用于后续参考,帮助分析现场故障和考虑设计变更
g.为比较研究提供输入数据
h.为建立校正措施的优先权提供依据
i.有助于客观地评价涉及到多重性、故障探测系统、故障安全特性和自动和手动操作超越的设计要求。
3.2、FMEA的组成
FMEA实际是一组系列化的活动,其过程包括:找出产品/过程中潜在的故障模式;根据相应的评价体系对找出的潜在故障模式进行风险量化评估;列出故障起因/机理,寻找预防或改进措施。
由于产品故障可能与设计、制造过程、使用、供货商以及服务有关,因此FMEA又分为:
lDFMEA:设计FMEA
lPFMEA:过程FMEA
由于过程FMEA需要考虑从单个零件到整个系统的所有制造过程,其评价与分析的对象是所有新的部件/过程、更改过的部件/过程及应用或环境有变化的原有部件/过程,所以对于体系结构庞大、组件众多的核电厂保护系统全部进行PFMEA是不切实际的,因此,核电厂的反应堆保护系统一般采用DFMEA。
DFMEA应在一个设计概念形成之时或之前开始,在产品开发各阶段中,当设计有变化时及时修改,并在图样加工完成之前结束。其评价与分析的对象是最终的产品以及每个与之相关的系统、子系统和零部件。需要注意的是,DFMEA在体现设计意图的同时还应保证制造或装配能够实现设计意图。因此,虽然DFMEA不是靠过程控制来克服设计中的缺陷,但其可以考虑制造/装配过程中技术的/客观的限制,从而为过程控制提供了良好的基础。进行DFMEA有助于:
l设计要求与设计方案的相互权衡;
l提高在设计开发过程中考虑潜在故障模式及其对系统和产品影响的可能性;
l为制定全面、有效的设计试验计划和开发项目提供更多的信息;
l建立一套改进设计和开发试验的优先控制系统;
l为将来分析研究现场情况、评价设计的更改以及开发更先进的设计提供参考。
4、FMEA方法
4.1、FMEA分析形式
FMEA是一种分析的技术,通常在一张表单上进行分析并加以控制和应用,该表单的一般形式由美国三大汽车厂商(戴姆勒-克莱斯勒、福特、通用)在《故障模式和影响分析》一书中确定。
核电厂保护系统的FMEA主要包括以下内容:
1)设备:分析的对象;
2)故障模式:不执行特定功能的设备故障的定义,在适当的地方需要辨别可能的差别(比如:故障高或者故障低);
3)故障起因或机理:引起故障的原因或机理;
4)故障现象和局部效应包括伴生故障:故障对设备或者其它的附属设备的影响;
5)对保护功能的影响:故障对于完成保护功能的能力的影响,包括性能的退化或者多重度的降低;
6)探测方法:引起电厂运行维护人员注意的故障探测方法;
7)故障分级:区分故障的危险程度和可探测能力。
4.2、反应堆保护系统的FMEA深度
对组件或装置的故障模式的分析深度一般包括该设备对功能的影响。所以,对于数字化I&C系统和模拟I&C系统的分析深度应有所区别。
对于数字化I&C技术,FMEA确定到单个设备和它们特定的故障模式(短路、开路,数值变化等)是不切实际的。所以,采用更为可行的分析方法是更抽象的程度。例如,对于一个包括处理器、I/O的组件,故障分析更应是:不能够执行存储的程序,数据访问出错等,而不是元器件的开路或短路。
而对于模拟的I&C技术,由于元器件的短路、开路和数值变化会直接影响保护系统执行其功能的能力,所以模拟I&C系统的故障模式主要是元器件故障。
4.2、反应堆保护系统的FMEA流程
1)确定FMEA团队
若问题无法独立解决时,通知有关的人员组成FMEA团队,要求团队的成员必需有执行能力,例如:了解保护系统结构或者熟悉保护系统硬件设计等。
2)定义FMEA范围
在正式开始FMEA前,必须确定FMEA的范围,理解评估对象。一般来说,作为最终安全分析报告支持性材料的FMEA的范围是整个保护系统,包括其中的所有子系统和设备。在进行系统级的FMEA时,必须考虑一些子系统或者部件故障导致的系统故障模式,如图4-1所示。
3)确定用户
在FMEA过程中需要考虑四个主要用户:最终用户、OEM组装和制造中心、供货商和审查人员。
4)确定功能、要求和规范
该活动的目的是阐明系统设计的目的,帮助确定系统功能的潜在故障模式。
5)确定潜在的故障模式
故障模式应以一种技术的角度描述。确定故障模式没有特定的方法,通常是由具有经验的设计人员提出。也可通过供应商的洞察力确定保护系统中不同组件对异常信号的响应,以及确定通过何种方法可以探测到缺陷。
在某些情况下,可以将组件分成几个子组件对组件的故障模式做出更深层次的说明。例如:将CPU组件分为功能处理器部分和通信处理器部分。
图4-1与上级系统相关的故障机制
6)确定潜在的影响
故障的潜在影响是以用户关注或体验到的结果来描述的,确定潜在的影响包括对影响的严重程度进行分析。
7)确定诱因
确定故障最根本的原因可以帮助拟定合适的对策,对于由多个诱因引起的故障模式,应对每个诱因进行分析。
8)确定控制方法
控制方法指的是预防和探测故障的方法,包括定期监督试验、故障报警等方法。
9)确定和评估风险
FMEA表格中应对每一种故障进行分级,通过关注故障对系统完成它所需的安全功能的危险程度、故障诊断的效果以及暴露故障的监督试验,确定重大故障。风险评估通常使用三种方法:严重程度(S)、发生频率(O)和探测能力(D)。
在风险评估之前,需要把严重程度、探测能力和发生频率进行分级评分,严重程度越高,发生频率越高或者越不容易探测则对应更高的数值。下表给出了故障的严重程度、可探测性和发生频率的一种分级方法,各项对应的最高分数是10分,最低分数为1分。
表4-1故障严重程度分级
分级含义
10该故障的后果直接导致人员死亡
9放射性或者其它危险物质大量释放,造成人员损伤
8电厂安全功能全部丧失或者设备的损伤需要高额修复费用
7驱动反应堆停堆、汽轮机停机或者ESF功能
6产生电厂瞬态,导致安全系统动作
5导致技术规格书中的限制工况,需马上动作(<1小时)改变电厂模式
4直接引起或需要操纵员干预,功率下降大于5%
3丧失非关键的I&C功能,其它故障续操纵员短期干预;允许发生有足够恢复时间的限制工况;丧失一个序列的电厂安全功能
2不直接丧失功能,当发生额外故障时多重性降低
1不丧失I&C功能
表4-2故障探测能力分级
分级含义
10只有拆卸组件后才能发现故障
9通过电厂计划的监督试验程序之外的现场试验发现
8通过电厂计划的试验程序揭示,但不是通过诊断揭示的
7不会丧失功能,在发生额外的故障时揭示
6通过操纵员的观察,但不是通过故障指示显示
5故障通过电厂设备随后的动作(阀门动作,断路器触发等)自我探测
4通过诊断显示,控制模式性能退化
3通过诊断显示,需要起动系统的默认动作
2通过诊断显示,在规定的试验周期内执行的有计划的监督实验定位故障
1通过诊断显示,状态指示可定位故障
表4-3故障发生频率分级
分级发生频率典型的故障模式
10~1/d人因过失
9~1/m消耗型设备(如:电池)
8~1/y频繁动作的部件(如:磁盘驱动器)
710-4~10-5/h复杂的电子器件(如:处理器)
610-5~10-6/h一般的电子组件(I/O组件)
510-6~10-7/h由被动的电子器件组成的简单组件(终端单元)或多通道I/O组件中的一个通道故障
410-7~10-8/h低使用率的单个电子组件
310-8~10-9/h没有经过老化处理的被动设备(如:电缆)
210-9~10-10/h单个设备不可信的故障模式
1<10-10/h不可信故障
风险评估一般通过计算风险优先数(RPN)进行,RPN是事件的严重程度、发生频率和探测能力三者的乘积:
RPN=S×O×D(1)
RPN的分值越高,该故障的风险等级就越高,在FMEA时需要特别加以关注。虽然上表给出了典型故障模式的发生概率,但对复杂程度很高的保护系统组件计算其故障概率是十分费时费力的,所以在核电厂保护系统的FMEA中一般只使用严重程度和可探测性这两个风险指标,并使用RPN的另外一种计算方法:
RPN=S×10+D(2)
该方法是在发生概率难以计算的情况下的一种折中的方法,也可以反应故障的风险等级。但该计算方法中严重程度的权重较高,不利于风险评估。
10)建议的动作和结果
建议的动作和结果用于减少风险和减少风险的可能性。可用下列方法检查建议的动作是否已实施:
l确保满足设计要求
l审查工程图纸和规范
l审查相关的FMEA、控制计划和运行说明等
4.3、反应堆保护系统的FMEA实例
下面分别给出模拟保护系统和数字化保护系统FMEA表格中的一部分:
表4-3模拟保护系统FMEA表格
名称故障模式原因故障现象和局部效应
包括伴生故障探测方法内部补偿措施对保护系统的影响
高整定值定值器整定电压故障开路(高电平)元器件故障,整定调节低电平端开路定值器的整定值恒定在高电平,即使监测变量真实值增高越限,定值器也不改变逻辑状态和不触发通道动作定期试验3个通道多重相应的2/4局部符合逻辑转换成2/3
通过这个表格可以看出,模拟保护系统FMEA主要分析的是元器件故障,故障的影响一般可由多重序列阻止,即使在某个序列丧失功能后,依然可以完成保护功能。
表4-4数字化保护系统FMEA表格
设备故障模式故障现象和局部效应包括伴生故障对保护功能的
影响探测方法
定值逻辑处理器组件功能处理器故障未能执行程序指令处理器停止(执行指令),送至试验处理器的实时状态信号停止局部符合逻辑使用受影响序列中其它定值逻辑处理器中的数据;不会丧失功能由试验处理器通过系统总线探测处理器功能丧失;发出故障报
以上两张表格分别截取自国内某两个核电厂的保护系统的FMEA报告,从上述表格中可以看出,数字化保护保护系统和模拟保护系统一样,都是通过多重序列阻止多数故障所造成的影响。不过,由于采用了数字化技术,数字化保护系统的故障探测能力,可操作维修能力比起模拟系统都有了很大的提高。
5、结论与展望
从保护系统的FMEA表格中可以看出,在保护系统的设计和开发过程中执行FMEA,可以有效的消除或避免故障原因,预先确定或检测故障,减小故障的影响。通过贯彻故障安全等准则,即使发生了严重程度最高的故障,也可以保证核电厂的安全。通过对不同的故障模式进行分级,可以快速、方便的确定高风险故障,不过在没有给出故障概率的情况下,风险等级的主要依赖于故障的严重程度,这样不利于区分同一严重程度的故障,可以考虑在FMEA表格中加入失效概率这一因子,根据SOD算式计算出更加完整的风险等级。
参考文件:
[1].HAD102核安全导则汇编
[2].ANSI/IEEE352-1987
[3].PotentialFailureModeandEffectsAnalysisReferenceManualFourthEdition