历史教训告诉我们,不能忽视数据中心的可靠性, 一次宕机所带来的损失是不可估量的,有的甚至是无法挽回的。那么,对于数据中心配电系统的可靠性就提出了更高的要求。部署切合实际的冗余备份设计方案,将使数据中心终身获益。今天,我们就来结合实际案例,对数据中心配电系统用户供电可靠性计算中经常出现的问题进行分析,提出减少用户停机时间及提高数�������中心配电系统用户供电可靠性的途径和措施。
案例:某IDC机房
图1-1 Power input system for UPS
问题1:对于可靠性研究,双回路进线在什么情况下等同于单回路进线?
当我们遇到“双回路”, “单回路”的问题,很容易会下结论“双回路”一定比“单回路” 可靠。就定性而言“双回路”方案的确比“单回路”方案可靠,但在进行可用性的计算时,在某种意义下“双回路” 等同于“单回路”。 由 “可用性“ 的概念可知,“可用性“ 有两个定义。一个是固有可用性(inherent availability),另一个是操作可用性(operational availability) 。如图1-1中所示,本系统有两路独立22.9KV电源,分别经过ALTS 进入现场。正常运行时,只用左侧电源, 一旦左侧主用电源故障,系统将切换到右侧备用电源。注意本系统两个电源之间的转换不是自动转换,而是由人工来判断,判断之后再进行操作。那么在这种情况下,在RBD的模型搭建中仅仅建立一个回路的模型就可以得到真实的可用性结果。
因此,只有在我们讨论操作可用性(operational availability)的前提下,且两路电源之前的转换是非自动的,这个时候,“双回路”就等同于“单回路”用于建立RBD模型。
问题2:共用的冗余系统该不该算作一个并联元件而建立在RBD模型中?
对于公共冗余系统不能一概而论, 需要判断这个冗余系统的用途。图1-1中, 红色标记的部分是下面每一组UPS进线共用的冗余系统。当作为冗余系统且末端切换使用STS,那么此系统可以作为并联冗余元件考虑搭入RBD模型中。根据规范IEEE P3006.7 TM/D2 中指出RR系统是对可靠性有贡献的,但在本案例中,这个系统仅仅在有计划地检修条件下使用,因此最终没有搭�������在RBD模型中。由于这一点的判断对于整个可用性计算结果有量级上的影响,因此不容忽视。
问题3:增加设备冗余, 一定可以提高系统的可用性吗?
通常容易被大家理解的是,为了让一个系统更可靠, 把单电源设备进化为双电源设备;如果这样不够,又把配电系统做成冗余的;如果还不够,还要经过中压的冗余、低压的冗余、末端的STS切换来达到提高系统可用性的目的。但付出这么高的代价就一定能得到更高的可用性吗? 其实不然。下面我们来具体分析一下。
可靠性是一个概率值,指某个设备或系统在一个指定的时间内能够无故障的持续稳定运行的可能性。可靠性随着指定时间的不同而变化,时间越长,可靠性越低。可靠性是一个随时间变化的函数,其计算公式为:R(t)=e-λt。其中,λ 为故障率,λ=1/MTBF。可见无论系统设计的多么可靠,系统随着时间的延长出现故障的可能性就越来越高。参考图1-2可用性与设备投入的关系曲线得知,在�������统可用性已经很高的情况下,通过继续增加设备来提高可用性,其实是增加了整个系统的复杂程度, 对可用性的提高是没有帮助的,甚至会相反。
图1-2 Availability versus cost
问题4:提高系统的可用性和可靠性的根本是什么?
系统的结构及配置直接决定了数据中心的可用性和可靠性。如果一个系统是由各个子系统串联而成,那么,不论任何一个子系统出现故障,都将导致整个系统的瘫痪。所以说,这种系统的可用性和可靠性低于任何一个子系统的可用性和可靠性,也就是说,提高系统可用性和靠性的核心在于消除和减少单点故障。
结论: 通过对可靠性计算中经常出现的问题进行分析,我们了解到,为了追求高可用性而盲目的投入设备是不可取的,可用性模拟分析是一个非常强大的工具,可以帮助我们找到一个点使投资的效益最大化。另一方面,可用性的分析对于现有数据中心的改造也是非常有帮助的。
编辑:apple.lei