年故障时间不到5分钟 构建高可用的广域网络
- +1 你赞过了
硬件高可用性主要技术点
主控冗余
主控冗余在控制和转发分离的架构下才能发挥最大的效用。在控制和转发分离的架构中,控制平面负责各种协议,如路由协议(如RIP/OSPF/IS-IS/BGP)、标签分发协议(如LDP/RSVP-TE/BGP)等的处理,形成路由信息表(RIB)和标签信息表(LIB),从中选择最优者,加上必要的二层信息,形成路由转发信息表(FIB)和标签转发信息表(LFIB),下发到转发平面,转发平面据此实现快速转发。控制平面的处理在主控板上进行,转发平面的处理在业务板上。这样,即使控制平面出现故障,转发平面的转发表项的内容在短时间内不会失效,因此可以继续转发数据而不会出现问题(如环路)。当然,控制平面必须能快速恢复并重新和邻居建立协议会话,收敛后再对转发平面进行检查,对表项作必要更新,删除在新的会话环境下不再正确的转发表项。主控冗余是指设备配置两块主控板,互为备份,一块为Master,另一块备用,称为Slave。只有Master进行控制平面的处理,并生成转发表项。Slave上的映像文件虽然也充分启动,配置也从Master实时备份,但Slave不参与控制平面的处理。Master转发平面的各种表项会以实时增量备份和定期完整备份相结合的方式持续备份到Slave上。虽然Slave上的控制平面对网络状况一无所知,但由于其在转发平面上和Master同步,基本能反映当时的网络转发状态,因此随时可以替换Master承担起转发任务,这就是转发和控制分离带来的效果。
设备实时检测Master是否正常工作,检测手段可以是检测主备板之间的硬件心跳,也可以使用IPC通道或用其他方式进行检测。一旦发现Master异常,立即启动主备切换,由Slave接管Master的工作,Master和Slave的角色互换。和单主控相比,双主控的收敛性能要好得多,因为在双主控情况下,Slave已经预先完成映象文件的加载和配置的初始化工作,主备切换时业务板不需要重新注册,二三层接口也不会出现up/down。另外,因为Slave上已经备份有转发表项,可以立即承担转发任务,在一定程度上可以避免业务中断。
不过,因为新的Master在主备切换前不参与控制平面的处理,切换后需要重新和邻居进行会话协商,所以虽然保存了完整的转发表项,但只能避免部分流量不中断,如二层以及从本设备往外发送的流量;如果和邻居之间配置的是静态路由或静态LSP的话,邻居会继续向进行主备倒换的设备发送流量,流量也不会中断。但如果和邻居之间是动态路由协议或动态标签分发协议,则和邻居之间的流量会中断,这是因为在控制平面会话重置的情况下,邻居的控制平面会重新计算,选择它认为合适的路径。以OSPF协议为例,新Master在发出的Hello报文中没有原来邻居的RID,会导致邻居把OSPF会话状态重置,并把和发生切换的设备相关的LSA删除,导致路由重新计算。如果有其他可选路径的话,流量会绕开主备切换的设备;如果没有可选路径,则需要等待OSPF重新收敛,在重新收敛之前,邻居不会把流量发给该设备。
主备切换的前提条件,是检测到Master故障。在Master故障但没有被检测到的时间内,会导致报文丢失。其次,主备切换期间也会丢一部分报文。最后,主备切换完成后,设备需要和和邻居重建协议会话,这也需要一定时间。总的来说,主备切换的收敛时间为:Master故障检测时间+切换时间+信令收敛时间。
单板热插拔
单板热插拔,是指在设备正常运行时,在线插拔单板,而不影响其他单板的业务。一般的中高端机架式设备,均支持单板热插拔。单板热插拔功能包括:
往机框中新增单板不影响在线的单板业务;
可在线更换单板(即拔出老单板换一块新单板或老板重新插入时,新单板能继承原来的配置,并且不影响其他单板的工作;
对于分布式设备,在添加或插拔单板时,FIB表能同步到单板。
单板热插拔和跨板的链路捆绑技术相结合,一定程度上提供了单板间的1:N备份功能。
单板热插拔的收敛时间不好衡量,就以配置继承和生效为例,收敛时间和配置的类型及配置的多少有极大的关系。如果和链路捆绑结合,收敛时间还和链路捆帮的收敛时间相关。
电源风扇冗余
为了保证设备电源收入的稳定,中高端设备一般提供双路电源输入,当一路输入出现故障时,能自动切换到另一路,不影响设备功能。另外,中高端设备一般通过多个电源模块供电,采取1:N备份方式,一个电源模块为其他N个提供备份,在拔出某一个电源模块时,其他模块能提供足够电源功率。
风扇作为散热的重要手段,中高端设备也提供风扇冗余,一般提供多个风扇框,可以在线更换其中的风扇框,不影响产品功能。
电源和风扇的切换和更换不应该影响产品的转发功能,可以认为其收敛时间为0。
最新资讯
热门视频
新品评测