BGP update更新报文导致的用户网段路由丢失
- +1 你赞过了
【天极网网络频道】案例正文:
一、背景
组网: C6509--NE40E-X8--(传输)--NE20E-X6
/ | | | \
server \ | | | / client
C6509--NE40E-X8--(传输)—ASR1K。
二、问题、事件描述
1、组网说明:经过扩容更新后,组网为C6509与NE40E-X8运行OSPF&IBGP,NE40E-X8与NE20E-X6运行EBGP,NE20E-X6和ASR1K运行OSPF,用户同时连接NE20E-X6和ASR1K,网关在NE20上,用户需访问C6509下服务器资源
2、现象:NE20E-X6多个接口下挂有多个网段,某日人为插拔某个端口再恢复后,该接口下网段用户无法访问服务器,客户自行重启NE20E-X6后业务恢复正常,要求定位原因。
三、分析与对策
人为插拔网线后下挂业务中断无法恢复,很可能是插拔后对应网段路由未通过EBGP向NE40E-X8宣告,导致NE40E-X8无法学到对应网段路由,用户无法访问server下资源。
1、为定位问题,需要复现故障现象。由于是在网业务,不适合做插拔模拟,采用建子接口方式,并通过shutdown/undo shutdown人为模拟插拔网线,复现现象。现象复现后即可在不中断现网业务的情况下进行debug bgp分析。
2、shutdown NE20E-X6子接口,在NE40E-X8侧debug bgp,可以收到NE20E-X6发的bgp update报文,且在一个报文中同时有对子接口网段的update和withdraw两个宣告消息。
3、undo shutdown NE20E-X6子接口,在NE40E-X8侧debug bgp,可以收到NE20E-X6发的两个bgp update报文,第一个报文路由更新,第二个报文路由撤销,由于最终的效果是撤销,因此NE40E-X8无法学到对应网段路由,业务中断。
4、找到原因后,可以找方法规避:在NE20E-X6上配置聚合后的黑洞路由,再在BGP中network发布,这样就可以屏蔽具体网段的路由变化了,这样也优化了配置。
四、建议与讨论
神码工程师对客户网络和业务进行综合评估,对出现的问题和隐患做了一定量的修正,防止再次出现类似人为或部署初期埋下的隐患和问题。另外,由此也提醒网络维护人员,在大规模组网环境下为了快速定位故障,需要使用分段的方法,将网络分解成一段一段分别检查,在按照分层法最终定位故障点,使用理论结合实际的有效方法,去解决网络中的突发和未知问题。
最新资讯
热门视频
新品评测