SUPMAX800DCS系统是由上海自动化仪表厂自行研发的小分散系统,由通讯网络、电源、DPU、I/O卡件等硬件组成,基于高性能100M全双工交换机、星型、冗余工业以太网架构,全双工交换机的星型网络结构。具有模拟量调节、逻辑控制、顺序控制的功能。SUPMAX-800工作站由工程师站、服务器站、操作员站组成。工程师站主要是进行实时监控、过程图、系统硬件组态、控制策略图型组态(符合IECl131-3标准)、数据库趋势与报警、历史库等组态、用户应用程序的编制和运行。服务器站主要是进行过程数据采集、历史数据(趋势点、报警、报表、事件等)记录保存。提供连接至PLC和其它外部系统或子系统的接口。操作员站主要是实时监控,过程图形显示为操作员提供友好的人机对话和画面显示环境,完成对控制对象或生产过程的实时监控和控制操作。
我公司于2004年135MW循环流化床机组上投入使用了SUPMAX-800DCS系统,该系统自投入使用以来,多次出现死机,为避免盲目检查SUPMAX-800系统,延长故障处理时间,致使事故扩大,影响企业的经济效益。结合我公司在使用过程中出现死机现象及解决方法,现总结出现以下几种典型死机现象及处理步骤相关人员以供参考。
一、 SUPMAX-800的分散处理单元DPU死机,部分数据与服务器不能通信。SUPMAXDPU为冗余传输,当工作的主DPU故障时,能无扰动的切换到从DPU上,切换时间小于1ms。但SUPMAX-800使用的DPU是自我研制的小型处理器,自备冷却风扇。该设备工耗大,发热量高,冷却风扇一旦工作不正常,工作的主DPU就发出故障报警,停止工作。而且在切换过程中易发生冗余DPU启动不起来,导致部分数据与服务器不能通信发生死机现象。技术人员此时切不可盲目启动从DPU,或再次手动启主DPU。而是将主DPU拔下,再启动从DPU;或尽快更换主DPU风扇,拔下冗余DPU,将主DPU再投入运行。系统运行正常后,技术人员将拔下主(从)DPU装入,以防止DPU故障期间,数据异常,主、从DPU同时在线,启动时相互交叉复制异常数据,最终造成主、从DPU程序都不能工作,扩大故障从而必须下装系统程序。
二、 A、B网交换机通信故障。SUPMAX-800系统的网络是采用的冗余A、B工业以太网架构。由于系统每个数据都需要在网络上传输,若交换机吞吐量数据超过其最大能量,就必然引起数据通道堵塞。造成DCS系统局部死机。处理方法,重启交换机并且作好记录。在检修主设备时,更换功能更强大稳定性更好的交换机加大网络数据吞吐量的能力。将交换机进行停电处理,清除通路中的差错数据,保证数据通路顺畅。
三、 光纤和网线接头出现问题。SUPMAX-800远程站全部是光纤通信,要对光纤转换器定期检查,防止光纤转换器掉电或损坏造成局部通信不上。SUPMAX-800系统主要采用网线接头进行连接,接头全坏氧化及损坏的可能性教大。为更好的保证系统稳定运行,每次四年应更换与服务器连接的网络接头。
四、 SUPMAX-800系统的服务器死机。SUPMAX-800系统使用客户机/服务器的形式进行通信,当服务器退出运行时,操作员站与系统就无法通信,造成系统上位机客户机死机。由于SUPMAX-800系统采用是冗余服务器,正常情况下,只要有一台服务器运行,所有的客户机即操作员站,就不会产生死机,但有时工作的服务器在退出运行时,另一台服务器非能检测到或未能切换为主服务器工作,也能造成死机现象。因此,操作员站不能通信时一定要对所有的服务器进行检查。对退出的服务器进行重启即能解决问题。
五、 SUPMAX-800系统网络有病毒。网络病毒有自我复制、攻击系统等功能,DCS系统控制网络病毒最直接最有效的办法是防。DCS系统不允许与外网相连,DCS各个主机拷贝数据必须专用的移动硬盘或光盘。并对所有操作员站UBS空余接口全部屏蔽或封堵。
六、 其他情况。我公司曾发生SUPMAX-800系统的操作员站全死机现象。但服务器、交换机、网络接口、DPU等硬件均未发现问题,各设备而且都有数据刷新现象。技术人员分别工程师站、服务器、交换机、机炉电各分支交换机进行排查和重启,、仍然不能解决死机问题。在保证系统安全的情况下,技术人员最终将A、B网络锅炉、汽机分支同时断电,才使通信正常,解除危急。技术人员事后于上海自动化仪表厂技术人员代表分析,产生这种现象可能有以下几种原因:一、网路通信中产生的坏数据(丢包)较多,造成的网络堵塞,通信中断。二、A、B网络冗余出错,相互工作,相互制约,相互堵塞。造成DCS系统网路堵塞,系统通信中断。遇见此类问题时首先检查三台服务器是否退出运行。其次检查工程师站的交换机或服务器电源是否退出,数据是否刷新。若均未发现设备不正常现象,则直接将A、B网的锅炉、汽机分网同时停电重启,快速解决死机问题。