摘要:如何主动定位故障并处理,减少故障发生概率,提高修复时间,避免对用户业务产生影响,使网络更健康、更流畅,从而提高用户体验是运维对综合网管提出的新需求。广东省网通过主动式运维管理系统的部署并与传统综合网管结合使用,极大地提升了用户体验。
关键词:PNM;主动式运维;综合网管;MTR
1主动式运维网管产生背景
1.1网管系统演进之路
综合网管系统是架构在网络管理人员与通信网络之间的一座桥梁。它共经历了4个阶段,主要是集配置、故障、性能、运维、安全等功能模块于一体,对通信网络设备进行参数配置、故障报警、性能分析等网络管理、业务管理以及安全管理,同时还负责系统自身的管理及建设,并且结合网管工作的实际流程进行告警处理、工单处理等事务管理,为运行维护、网络资源管理、网络性能分析、计划建设决策、业务管理等各级人员提供服务。全面的虚拟化技术及标准、共享服务的基础架构以及新应用程序平台的出现,使得以往的管理模式已经不能满足云时代数据中心全新的管理需求,其管理对象、目标等均出现了鲜明的特色。随着虚拟化、云计算等技术及应用的进一步发展、标准化,未来的IT管理系统必将更融合、更智能、更开放。
1.2网管系统现有功能
(1)设备管理对网元级设备具有强大的管理能力,针对多厂家的设备网络产品线可统一管理及分析,针对较大的网络规模也可轻松管理。(2)业务配置开通支持分离式管理业务的开通。业务配置拓扑寻路效率高,业务配置效率逐步提高。(3)网络割接提供业务迁移、网络调整、批量路由调整及路由回迁等各种业务场景的割接。(4)拓扑结构对于网络拓扑可清晰的展示,拓扑分层化显示。(5)资源统计可统计资源类信息报表,包括链路资源、业务流量统计、网络物理资源等相关资源的报表。(6)告警实时监控设备产生的告警及性能指标告警,对告警进行级别分类和过滤。
1.3主动式运维的产生
综合网管系统数据往往只能反映出网络中某些节点的信号指标,因此运维人员需要通过查看多个节点的指标情况进行定位和排除,也就是被动式维护。被动式维护是用户感知业务质量已下降,投诉后才进行维修。另外,被动式维护在维护定位时还有可能中断用户网络,给用户体验带来较大影响。如何做到在某种程度上对故障先知先觉、对问题预先判断、对故障隐患提前解决、做到未雨绸缪,是目前运维对综合网管提出的新需求。在此背景下,主动式运维应运而生。PNMP即“基于预均衡的主动网络运维”,是PNM主动运维的一种技术手段。
2主动式运维管理系统
经过几年的探索与功能优化,基于PNM技术衍生了ComcastScoutFlux、Spectra及Watchtower等应用程序,这些应用程序包括预均衡、频谱分析、空间定位等功能,可准确定位及判断出网络中各设备的健康状态。PNM技术主要是通过补偿上行信道中的线性失真(包括频率响应、微反射、群延时等)来保证上行信号质量。简单来说就是CMTS是根据CM的测距消息来评估CM的信号质量,生成预均衡参数,下发给CM。CM的预均衡器会根据预均衡参数进行信号增益,抵消上行线路上的损耗。这样,在CMTS收到信号时,线性失真的问题会大幅缓解,从而有效提升信号质量。根据PNM原理,衍生出不同的应用角度,主要包括健康指标MTR、频响曲线分组、故障点位置TDR三类。(1)MTRCM的预均衡器有24个可调节参数,网络正常时,主参数(主抽头)能量远大于其他参数,当网络劣化时,其他参数能量会大幅增加以补偿增益。根据这一原理,用主参数与其他参数的能量比就能衡量网络健康状况。主参数能量越高,其他参数越低,MTR值越大,网络越健康。一般建议MTR值保持在20dB以上,小于10dB就说明网络有明显故障。(2)频响曲线针对链路问题,可根据相同分支分配器下不同CM的频响曲线是否相同来判断该分支分配器是否出现老化故障。(3)TDRTDR时域反射技术是指一种对反射波进行分析的遥控测量技术。频率响应可以通过反向傅里叶转换,推算出一个时域内的时间幅度图,通过分析图中驻波间的时间间隔可以计算出一个时间差,通过这个时间差和信号的物理传输速度可以计算出一个大概的故障距离,即通过TDR计算出的故障位置仅供排障参考,反映的是距离CM最近的可能故障点。
3我司主动式运维演进之路
我司在2014年年初启动了全省CMTS运营监测系统的搭建,2014年年底完成了全省各单位分平台的建设部署并正式投入使用。截至2016年6月,CMTS运营监测系统已完成全省超过350台CMTS设备和超过180万台CM终端的接入和管理。基于网络现状,我司先后制定了接入网基本指标、较优指标、新装终端合格率等考核标准,并在CMTS运营监测系统里实现考核报表的开发,该系统结合移动终端APP程序,成为了一线运维人员上门装维服务不可缺少的技术工具之一。CMTS运营监测系统的部署和推广使用,大大提高了我司运维工作效率,它与网络优化工作紧密结合,促进了我司网络运行指标的稳步提高,给PNM主动式故障运维系统的部署与推广奠定了网络基础。
3.1OSS工单回单判断
为了有效支撑宽带业务地发展,合理分配网络优化资源,我司启动了报障预判断以及工单回单判断功能。当用户报障时,客服人员(技术岗)通过接口调度CMTS运营监测系统,查看当前用户CM的发射电平、接收电平、上行SNR、下行SNR等实时(历史)数据信息来判断CM设备是否存在故障或网络指标是否异常,然后根据实际情况选择出单。而运维人员接到工单上门维护时便从工单上直接了解到该用户的具体报障情况及故障预判断等信息,排查解决故障后,在回单时会再次从CMTS运营监测系统上获取当前CM的发射电平、接收电平、上行SNR、下行SNR等指标信息,只有各指标达标后才可回单,基本杜绝同一故障多次上门维护或网络指标较差而未处理的现象的发生,大大节约了运维成本。该功能的实现,也给各单位运维人员初步带来了主动维护的概念。
3.2基于高低电平差的故障定位
在双向网络的故障中,接头故障占了70%多。经常出现接头问题会引发反向侵入噪声过高、CM发射电平和接收电平异常,给用户的体验就是网速慢、经常断网。在实际运维中,我司总结出了高低电平差对比法的经验,发现正向输出电平高频(H)、输出端注入低频反向信号电平(L)、CM正向接收电平(A)、CM反向发射电平(B)4个值之间有着一定的关系。在有线电视双向分配网络设计相对合理的前提下,只要保证楼放调试实行了标准化,那么H、L这两个值就是固定的。经过大量测试发现,只要(H+L)-(A+B)的值(Z)在一定的范围内,网络噪声就控制的比较好。根据我司验证,CM发射电平B的额定范围内(30dBmV~55dBmV)对应不同的固定衰减D值得出相关数据,如图1所示,结合CM接收电平A的额定范围(-10dBmV~15dBmV),得出黄色部分才是合理的达标区间。根据实际经验统计,Z<0时,低频衰减值过大,说明接头(或链路)出现断路或弱断路现象;当Z>18.4时,高频衰减值过大,说明接头(或链路)出现短路或弱短路现象。一线员工只要了解CM的A+B,用固定的H+L,就能算出Z。该理论的证实及实际应用相对较准确地定位了故障原因,大大提高了运维效率。运维人员对此类主动运维的功能的需求越来越迫切。
3.3PNM试点
由于HFC双向网络长期暴露在空气中,容易受到日照和雨水、灰尘等的影响,使得网络中的设备头端、终端、光站、放大器、衰减器、分支器、分配器以及电缆都有可能存在问题或隐患。某些存在于网络中的“小问题”从表面上看对业务的影响不大,甚至对传输信号质量基本上没有太大的影响,但随着时间的推移,“小故障”有可能会引起整个系统指标的劣化,最后影响用户体验。因此,对于网络中存在的故障应提前发现、诊断、定位和排查。在故障诊断方面,当前国内同行的主要方法是基于经验和故障现象来开展的,其中主要故障现象包括用户体验下降、上网慢、上网断线、点播卡顿等。我司此前建设部署的综合网管也如行业的一样,只呈现出网络中某些节点的信号指标,运维人员无法快速排查故障,无法提前预知问题即将发生。另外,故障发生后,故障的定位及解决还有可能会中断用户网络,影响用户体验。为进一步提升用户满意度,我司参考国外有线电视运营商的先进维护经验,在2017年年初启动了基于DOCSIS标准预均衡技术的主动式故障维护系统(PNM)试点的建设,探索和推进主动式故障维护。我司在佛山分公司和广东有线各选择有代表性的3台处于不同分前端机房的CMTS设备,共计6台CMTS设备,接入管理超过40000个CM终端作为试点。本次试点在广东有线和佛山南海分公司共进行了33处现场验证,根据主动式故障维护系统提供的大数据分析结果,准确分析故障原因及定位故障,实现了主动式维护的目标。本次试点总结如下。(1)待验证样本数据与其实际验证准确率为100%,即抽取出来的33条待验证样本数据(CM)均为异常CM。(2)精确定位潜在故障所在单条链路或共有链路。(3)处理方法有效率为100%,即故障处理后较故障处理前的PNM指标均有明显提升并恢复到PNM指标正常范围内,同时潜在故障消失。
3.4PNM全省推广
在对系统有了更深入地理解和对运维流程依托该软件做了相应优化后,我司于2018年在全省进行了PNM系统的全面推广。我司CMTS运营监测系统已经在网稳定运行多年,作为各分公司日常运维工具,使用频率非常高,极大提高了日常运维效率。PNM也是基于对CMTS/CM的采集数据进行分析,从而对分配网链路质量进行分析和处理。为了降低对设备的采集压力和对网络资源的占用比例,也为了减轻运维人员的操作难度,我司对CMTS运营监测系统和PNM主动式故障维护系统进行了整合,形成CMTS综合管理系统。该系统整合内容包括Web端整合、APP端整合、采集端整合。系统开发了智能故障判断、故障定位分析功能,融合后的系统将进一步提高运维人员的工作效率。
4总结
积极推进主动式故障维护,在故障影响用户业务之前发现网络中的故障点、主动定位和排除故障、减少故障对用户业务的影响,可以大大提升用户体验、提高用户满意度、促进ARPU值的增长以及降低网络维护费用等方面带来巨大积极的作用,已然成为了现阶段广电运营商一大重点研究方向。
参考文献
[1]周安.浅谈DOCSIS宽带业务接入系统的调试与运行维护[J].广播与电视技术,2012,39(5):96-99.
作者:李名科 余启林 王斌 蒋曙光
有线电视主动式运维管理的应用与探究相关推荐数字有线电视工程技术传输系统研究