数据中心采用一定的战略,以确保能够获得清洁、持续的电力资源对于其IT系统而言是必不可少的。
曾几何时, IT仅仅只是另一项重要的商业资源。但到了今天,IT已然成为了许多公司的业务。没有了IT,大多数企业组织及哦股将无法为他们的客户服务;与合作伙伴展开合作,开发新的产品或执行其他基本的业务功能。
其结果是,数据中心的可用性已经成为确保企业组织机构的市场竞争力和盈利能力的一个重要的先决条件。然而,尽管企业组织机构已经尽了自己最大的努力来确保数据中心系统的可用性,但他们仍然非常容易受到各种各样的威胁。而其中最主要的是便是来自电力系统的影响问题。数据中心的健康运营需要依靠持续的清洁电力供应。然而,从电源系统设计的哪怕一丝一毫的缺陷到整个电网发生的故障,都可能导致即使是最现代和先进的数据中心陷入瘫痪。
庆幸的是,企业组织可以通过采取对他们的业务流程和电力系统管理经过验证的改变办法来显著的减轻其电源相关的停机时间。在本文中,我们将与广大读者朋友们共同探讨关于如何建立和维护一个高度可用的数据中心电力基础设施的10项尚未被业界充分利用的最佳实践解决方案。
业务流程管理实践方案
1、打破企业组织机构间的壁垒
在大多数公司,通常都是由两个独立的部门负责数据中心的管理:IT部门和基础设施部门。IT部门负责监控数据中心的计算机基础设施与应用程序,该部门通常是向所在企业的首席信息官报告。而基础设施部门则负责处理数据中心的能源和冷却方面的要求,该部门通常是向所在企业的首席运营官或负责公司不动产方面的副总裁报告。长期以来,这种企业组织结构的划分已经成为大型企业的规范常态,但其往往会导致负责维持工作负载的人员与负责提供电力资源的人员之间的沟通不畅。
从历史上看,企业IT和基础设施部门之间的协商不充分并为对数据中心的可用性构成太大的危险。直到最近,即使是在最大型的数据中心,其工作负载和功耗要求也是较为适中的,其IT管理人员们可以安全地重新安置服务器和工作负载,而不会对电力或冷却系统带来太大的压力。
然而,今天的大规模的服务器基础架构正在变得越来越大、更为耗电、同时也就会散发更多的热量。此外,刀片式服务器和虚拟化的广泛采用——在简化管理,并提高服务器利用率的同时,也大大增加了计算密度和由此产生的热量——也进一步的加速了上述这些趋势。 而在今天,在没有咨询基础设施工程师的前提下,服务器的蔓延,数据中心的散热冷却,工作负载或硬件的迁移都可能导致电力设施的超负荷或HVAC系统的不堪重负,这可能反过来进一步降低关键系统的运行效率。
然而,不幸的是,虽然最近几年以来数据中心行业本身已经获得了相当显著的发展,但数据中心内部的企业组织结构却并没有。其内部的IT和基础设施部门仍然是两个相关独立的部门,且相互之间在重要的业务事项方面往往缺乏充分有效的沟通。
解决方案:为了尽可能的减少与电力相关的停机时间的发生,企业组织应该就IT管理人员和基础设施管理人员在对数据中心的实现修改时应该如何以及何时进行相互协商的程序建立明确且标准的文档记录。
为了进一步推动IT和基础设施部门之间的有效沟通,企业组织也应该考虑改变自己的组织结构图,使得IT和基础设施两个部门都向相同的CXO级的高管报告。这可以通过在两个部门之间设置一套通用的业务期望目标和共同的报告结构,使得IT和设施管理人员之间的互动变得更容易。
▲图1:在经过优化的企业组织架构方案中,IT部门、基础设施部门和企业高管之间公开分享信息,并做出协同做出决策。
▲图2:最新的企业管理应用程序为企业的IT和基础设施部门提供了一款单一的、基于Web的视图,来帮助他们掌握数据中心的功耗和散热情况。如果电力系统元件存在能耗和温度超过阈值的危险,其还可以主动提醒运营人员和设备管理人员。
8、采用适合您企业需求的电力系统拓扑结构
电力系统的拓扑结构对采购成本、运营费用、可靠性和平均维修时间有着重要的影响。对于一处既定的数据中心,您所设计的冗余越多,那么在其建造和运行过程中您企业所花费的成本也就会越多,但其也能够更快地从中断中恢复。
国际正常运行时间协会(The Uptime Institute)是一家专为企业数据中心的业主和运营商服务的独立的研究机构。该机构为数据中心的关键任务设施定义了四项电源系统拓扑结构来说明这一原理:
较之Tier III或Tier IV拓扑,一个Tier I或Tier II的拓扑相对便宜,但同时也提供了较少的可靠性和正常运行时间。
解决方案:当涉及到选择一款电力系统的拓扑结构时,并没有唯一正确的答案。企业组织应将他们的特殊业务情况和需求与其电力系统的拓扑结构相匹配。
例如,一个Tier II的拓扑结构对于托管了一款Web应用程序的一处数据中心可能是良好的,假设多个备份站点是可用的,那么用户如果偶尔会遇到几秒钟的延迟的话,他们不太可能会过多抱怨。然而,如若是在华尔街,哪怕仅仅几秒钟的延迟所可能导致的损失则也是以数百万美元计算的。因此,一处托管了金融交易应用程序的数据中心,选择采用一个Tier IV拓扑结构将是明智的。
9、更换过时的旧设备
电力异常可能会影响到敏感电子设备的运行,并包括组件中断,可能会对整个企业的业务产生重大影响。
数据中心一般利用不间断电源设备(UPS)来防止电源异常。这样的系统能够清洁“脏”的电力系统,并在供电中断期间提供应急电源。然而,直到最近,相对于其功耗而言,可用性最高的双转换UPS 系统往往是效率最低的,反之亦然。因此,那些希望能够尽量压低运营成本的企业组织可能已经部署实施了节能的UPS产品,这类产品交付低于平均水平的可用性;而那些更关注正常运行时间的企业组织则部署实施了高可用性的UPS系统,同时也浪费了电力资源。
解决方案:今天,已充分市场充分验证的成熟的UPS技术使得企业组织能够在一款单一的设备中同时享受到高可用性和高效率。对于那些使用较旧的不间断电源技术的企业组织而言,他们应考虑升级到这种新一代的设备,以便能够提高应用程序的可用性,并同时降低总拥有成本。
10、审查您企业数据中心的电力系统
大多数数据中心管理人员都认为,他们对于其电力系统的交付能力是清楚知道的。然而,事实上,真正能够做到这一点的数据中心管理人员是少之又少。这是因为大多数企业并没有定期对他们的电力基础设施进行审计。
只有通过审核电力系统,及您企业组织用来支持该系统的操作流程,您才能够建立您的数据中心的最大负载参数。当您需要把重要的新的IT工作负载投入生产,但却因为电力不足而无法做到时,仅仅靠依托产品规格和承包商的承诺会让您企业暴露在容量能力不足的困难风险之下。
解决方案:定期彻底的审核您数据中心的电源系统。
结论
在今天,维持一处大型的、散热量大且复杂的数据中心的可用性比以往任何时候都更为困难,也更具重要的战略性意义。特别是考虑到当前的全球经济一体化,可持续发展的压力和普遍的人口老龄化所导致的劳动力减少的大背景之下。企业组织已经利用了各种技术和流程,以确保关键任务的IT 系统能够获得清洁,可靠的电力资源供应。然而,大多数企业组织可以通过采用本文中所讨论到的相关解决方案来进一步减轻他们数据中心的停机时间。诚然,上文中所提到的某些方案可能需要您企业数据中心增加在新的硬件或软件方面的投资。但其实许多都如同让IT和基础设施人员互相有效沟通一样简单。
当然,在本文中所讨论的10项最佳实践解决方案并没有穷尽企业组织可以用来保护他们的数据中心,防止出现电力系统相关的服务中断的全部方式。而那些严重依赖于其数据中心的可用性的企业组织应该不断密切的关注和研究最一流的数据中心前沿技术和流程,并积极的采用这些前沿技术和流程。而在这样的任务上所花费的时间几乎总是以确保数据中心业务连续性的新的想法和思路的产生而给予回报的。