OA
U31网元脱管故障处理

U31网元脱管故障处理

问题描述

秦沈网管S385 2.5G设备不定期脱管,复位NCP后可以正常监控,过一段时间仍会脱管。

 【问题分析

导致网管脱管的原因大致有几种:1.光路故障 2.NCP故障 3.DCC通道问题 4.光板故障

 【问题处理

首先,网管光板未上LOS告警,排除光路问题,并且同时多个网元脱管,且处于不同地域,且10G层正常,所以光路同时断的可能性较小,光板同时坏的可能性也较小;其次,根据之前处理情况,NCP复位后(重插拔)就能恢复监控,故排除了多网元NCP同时故障的可能,为此,特意到站点用电脑直接连接网元QX口,telnet登录均正常,但也发现了一个问题,在用route查询网元学到的路由时,发现只有一条本端的,未学到其它网元路由,这也正是网元脱管的原因

在网管上telnet登录到在线的网元,使用route命令查询,查询结果如下:

从上图可以看到网元当前学到的路由,统计秦沈线全网网元IP,且与这个路由表对比如下: 

从上表可以看出,标黄色部分IP段为非秦沈网管内的IP,那么它们是怎么出现的呢,秦沈的网元怎么会学到非本网内路由呢?应该是与其它网络有对接光路且DCC未屏蔽,所以,进行全网排查,结果,在沈阳发现确实有此情况,见下图:




问题找到了,是因为与其它网络对接且没有屏蔽DCC通道,导致其它网络路由被秦沈网元学到,造成网元路由表过大,导致网元脱管,经过与沈阳协商,后将互联光口DCC屏蔽,再将脱管网元NCP复位后,网元上线,经后续观察,监控稳定,不再脱管。

问题总结

在SDH网络里,当网络规模过大,一定要做好IP规划、DCC屏蔽等,最好在一个网关网元监控的网络内,限制网元个数不超过128个,超出后,设立多个网关,建立多个子网来解决监控问题,否则,当网络内网元过多,就会导致网元反复脱管。