2

数据中心那点事儿之末端资源分配

 2 years ago
source link: https://server.51cto.com/article/706860.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
数据中心那点事儿之末端资源分配-51CTO.COM
数据中心那点事儿之末端资源分配
作者:孙靖涛 2022-04-19 07:47:13
机房的建设是以规划与设计为标准,而在机房投产运行后,实际供电、负载变化等因素常常出现,受其影响,设计指标并不一定能完全实现,因而机房实际运行中会出现许多难以预测的风险,对安全运营产生各种威胁。

在数据中心规划设计时,往往以“规划机柜数量”ד机架平均功率”考虑机房的用电需求及热负荷。但实际使用中,IT设备需遵循网络、业务等方面的原则进行部署,并非均匀分布,且设备的功耗在不同时段也存在波动,使得数据中心的实际负荷与设计指标存在偏差,从而造成供电过载或机房过热的风险。因而运维人员需要监控IT设备实际运行参数,分析机房运行状态,对可能的隐患及时排除。同时,在实际运维中,合理分配机房电力、机架,可以有效避免机房资源的浪费,提高资源利用率,降低PUE。本文通过介绍某机房案例,简要介绍数据中心规划与实际运维的差异,并通过变更解决机房风险的过程。

2.情况介绍

如图1所示,某数据中心A机房模块规划安装服务器机架61个,单机架平均功率4.4kW,机房总功率268.4kW。机房IT设备采用1000kVA UPS系统(单台500kVA 2+2配置)供电,分配给A机房模块的功耗为300kW。机房设有3台冷冻水型精密空调,2用1备,单台显冷量160kW,不考虑人员及围护结构散热,并考虑20%的制冷量冗余,该模块的制冷量阈值约为266.67kW(160kWx2/1.2)。

a99e764297f47e1a1c85734ce1ce67f32bb13d.png

图1 某机房机架布局平面图

该机房投产时,实际部署了6个网络机柜和55个服务器机柜,机柜内IT设备及功耗如表2-1所示,机房内实际部署网络设备134台,服务器设备550台,合计684台,估算总功耗267.6kW。机房列头柜输入断路器、输出微型断路器、PDU容量均满足设备需求。

c757c89998aa0a281da664e49948943f27317b.png

表1 机柜内IT设备部署及功耗估算

实际运行过程中,运维人员通过监控机房列头柜总用电量,统计了该机房IT负载在24小时内的波动情况,如图2-2所示。可以看到,机房实际负载24小时内大部分时间在255-265kW之间,符合机房供电、制冷容量范围内,但负载在每日凌晨1点开始提升,2点左右达到峰值时较平均功率提升了约15kW,已超出了机房制冷量阈值约7kW,之后开始逐步下降并在3点左右恢复平稳,超出冷量阈值时间约1小时。

59019c337f12e0bf5016399f6e3abd56d9fae2.png

图2 24小时机房负载功率曲线

该曲线说明,IT设备在业务高发时段的功耗超出了此前典型功率的预估值,机房整体功耗也超出了设计值。虽然由于冗余设计未造成配电系统过载,但也少许占用了其他机房模块的配电容量,且若长时间运行在高功耗状态,可能造成机房实际温度的上升、或因不同机柜之间功耗的差异产生局部热点,进而出现运行风险。同时,电力资源与制冷资源的不匹配也会导致机房资源浪费。

3.解决方案

由于该数据中心已建成投产,且未提前预留基础设施扩容条件,因此机房供电、制冷阈值已无法调整,只能将部分IT设备迁移至其他机房模块。根据图2数据,机房功耗峰值为274.5kW,超出理论冷量阈值约7.5kW。经实际测算,服务器设备峰值功率约为462W,应迁移至少16台服务器设备才能确保机房总体负载满足要求。

由于IT设备在该机房内以TOR组的形式部署,为不浪费网络端口、实现综合布线的一致性,设备迁移需以TOR组为单位进行。机房内最小的TOR组为双服务器机柜配置,组内共包含4台网络设备及20台服务器设备,功耗合计约9.8kW,迁移一个TOR组即能够满足需要。由于在机房规划中,B机房机架建设晚于A机房,设备迁移前,B机房设备上架率及实际功耗较低,目前有5台空机柜,设备设计冷量267kW,预留电量300kW,实际设备功耗为190kW,具备迁移条件。

经综合评估,确定将该机房内04-13、04-14机柜(如图2-1红框所示),共24台IT设备迁移至相邻的、设备上架率和负载率均较低的B机房。A、B机房由同一UPS系统供电,迁移后两机房负载均在供电、制冷阈值范围内。迁移后,机房峰值功耗预计将降低9.8kW。

4.设备迁移

机房设备迁移,首先要完成相应准备工作,如:提前在B机房目标机柜内进行设备落位规划、提前布线并完成机柜PDU测试、提前屏蔽监控、提前通知相关人员做好业务交接等。

在准备工作完成后,相关运维人员关停待迁移设备所承载的应用及系统,将IT设备关机,拔除相关线缆,将设备下架并搬迁至B机房目标机柜上架。设备安装完毕后,连接电源线,设备启机,观察待设备正常启动运行后,连接光纤、铜缆,检查配置并完成系统等各项验证,待设备完全正常工作后,解除告警屏蔽,更新设备部署信息。

此外,进行设备迁移还应做好风险预案,设备故障、配置错误等因素均可能导致失败,为保证回退所需环境,光纤拔下时注意保护,避免弯折,并盖上光纤帽。如设备迁移后无法恢复,则回退至A机房原位置上架加电,并恢复综合布线连线。

5.效果验证

在设备迁移变更完成后,机房负载功率曲线如图3所示:

63d5c6866ec86163730856b9ec34a4bf78fe65.png

图3 迁移后24小时机房负载功率曲线

由上图可知,变更后机房峰值功率下降约10kW,全天均处于冷量阈值以内。风险基本解决。同时,B机房设备上架率提高,电力、制冷设备利用率提高。由于机房运行是个动态过程,运维人员将持续观察机房运行各项参数。

机房的建设是以规划与设计为标准,而在机房投产运行后,实际供电、负载变化等因素常常出现,受其影响,设计指标并不一定能完全实现,因而机房实际运行中会出现许多难以预测的风险,对安全运营产生各种威胁。在实际的运维工作中,运维人员要从实际出发,对机房的各种设备实时监控,对风险早发现、早处理,为最终实际结果负责,以充足的技术论证为前提,合理分配机房设备,充分利用闲置资源解决现有问题,从而优化PUE,为机房安全、高效率运营保驾护航。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK