近年来,数据中心单机架功率密度呈上升趋势,根据 ColocationAmerica 数据显示,单一机柜机架功率密度由 2008 年的 6kW,直线上升至 2016 年的 12kW。2020 年,单一机柜机架功率密度可能达到 16.5kW。而个别改造案例中,单一机柜机架功率密度更是高达 43kW,高功率密度的机架假设为数据中心制冷系统提出了前所未有的高要求。水冷系统冬季通过冷却塔、板式换热器利用室外自然冷源进行制冷,全年能效比相比风冷空调更具优势,在越来越多的大型数据中心得到应用。
  

典型的数据中心水系统通常由冷冻水、冷却水系统组成,管路较长,法兰、阀门、过滤器等管路附件较多,随着使用年限的增加,水系统故障率随之升高。面对随时可能发生的故障,水系统备品备可以说是应急抢修的保障前提。备品备件是指为保障系统正常运行和设备修理要求,储备、存放于库房内备用的用于维护系统和设备的可替换单元。


一、非常用型备品备件储备
不同企业所需备品备件种类不同,根据现场实际情况,企业需制定生产、订购、供应、储备等方面的备品备件管理方案。针对数据中心 7X24 小时平稳运行的需求,故障处理务必及时有效,备品备件存在种类多、数量大的特点。大型数据中心部分水冷系统管径超过 DN500,管路附件类配品备品备件并不常用,且尺寸、重量较大,出于非常用备品备件自损及库房空间规划的考虑,这些非常用型备品备件不会进行现场储备。  
  

但值得注意的是,这些非常用型备品备件一旦出现故障,很可能直接影响数据中心水系统运行。如果现场没有储备,而备品备件的供应周期又长,数据中心就会直接面对制冷中断的风险。

 

二、故障抢修案例分析
1 外观检查
  
某大型数据中心机房楼配备 5 台冷水机组,故障发生前 1#、2#、3#冷水机组运行,单台负载率均在 60%以上。  
  

2019 年 8 月 16 日 17:10,1#冷水机组冷却水自清洗过滤器漏水,冷却水缺水导致冷水机组停机,系统自动切换至 4#冷水机组,切换后 3 台冷水机组负载率均在 60%以上。但由于 5#冷水机组压缩机故障无法启动,现 1#冷水机组不能启动,导致制冷系统无冗余,数据中心运行存在巨大风险。  
  

数据中心立刻成立专项抢修组,争取在最短时间内完成故障的恢复。


2 故障原因

     

自清洗过滤器是安装在管路 Y 型过滤器上的自动清洗排污装置,Y 型过滤器管径为 DN350。自清洗过滤器主要由法兰盘、不锈钢内刷(含支架)、过滤网、钢刷主轴、电机组成,漏水原因为自清洗过滤器运行时间较长,法兰盘安装孔处水封腐蚀,且钢刷主轴磨损严重,安装孔处冷却水泄露。  
  

虽然备品备件库储备了水封,但因自清洗过滤器尺寸较大、故障率低,故并未储备。因钢刷主轴磨损严重,故单纯更换水封无法解决冷却水泄露的问题。

 

3 故障处理

       

方案一:采购钢刷主轴进行更换  
  

因自清洗过滤器为定制设备,主轴为异型件,制作周期最少为 3-4 天,且发生故障临近下班时间,经电话沟通,主轴的制作最快为第二天上午,这样,冷机系统处于无冗余备份状态至少持续 4-5 天。采用方案一,数据中心将面对前所未有的运行风险。  
  

方案二:利用未启用水系统钢刷主轴进行更换  
  

除冷冻水、冷却水在用主管路,该数据中心还配备水环加热管路,且并没有启用。可利用管路上的自清洗过滤器钢刷主轴进行更换。但自清洗过滤器为铸铁材质,自重较大,常规拆卸电机、法兰盘及钢刷主轴需要约 2 小时,故拆卸及安装将耗时约 4 小时,且因自清洗过滤器较重,安装过程极易造成水封变形,可能导致再次漏水,如故障抢修失败,故障恢复时间将会延长。采用方案二,该数据中心亦将面对较长时间的运行风险。

 

4 故障分析

 

方案一风险过高,方案二虽然利用了闲置备品备件,但依然不能在短时间内完成故障抢修。  
  

抢修组成员均认为方案一和方案二效果都不能达到短时间完成抢修的目的,并总结关键点如下:  
  

(1)自清洗过滤器泄露点为钢刷主轴与法兰盘的安装孔;  
  

(2)自清洗过滤器重量大是拆装工作耗时较长的主要原因;  
  

(3)自清洗过滤器利用内部钢刷、排污开关定时启动,达到控制水质的目的。  
  

针对以上三个关键点,抢修组提出了几点疑问:  
  

(1)不更换钢刷主轴和水封,而是完全堵住安装孔,是否可以解决漏水问题;  
  

(2)自清洗过滤器更换是否可以减少工作量;  
  

(3)1#自清洗过滤器不起作用,是否会对系统水质产生影响。  
  

针对以上三点疑问,抢修组经过讨论,最终得到答案:  
  

(1)完全堵住安装孔,可以解决漏水问题;  
  

(2)工作量可降低至拆卸法兰盘、钢刷主轴及不锈钢内刷(含支架); 
  

(3)1#冷水机组运行时,可加大另外两台冷水机组自清洗过滤器的排污量,不影响系统水质。  
  

综上,抢修组总结得出方案三:  
  

拆除 1#自清洗过滤器法兰盘,并将钢刷主轴、不锈钢内刷(含支架)拆除,临时利用一款铁板焊死安装孔,再安装回 Y 型过滤器。
5 故障处理
     

(1)17:10—17:30  
  

抢修组对现场故障做出评估,最终确定方案三;  
  

(2)17:30—18:45  
  

抢修组借调其他机房楼人员力量,关闭 1#自清洗过滤器前后阀门,完成拆卸;  
  

(3)18:45—19:00  
  

抢修组现场利用一小块铁板将安装孔焊死;  
  

(4)19:00—19:30  
  

抢修组安装 1#自清洗过滤器的法兰盘。  
  

(5)19:30—20:00  
  

抢修组打开 1#自清洗过滤器前后阀门进行注水,观察 1#自清洗过滤器前后压力恢复正常,安装孔无泄漏现象。  
  

至此,从抢修方案制定至故障处理完成,历经约 2 小时 30 分钟,2#、3#、4#冷水机组正常运行,1#冷水机组作为备机,该数据中心机房楼恢复 N+1 备份机制,运行风险消除。


三、“非全尺寸”备品备件管理新思路
“非全尺寸”备品备件的灵感来源于汽车的非全尺寸备胎。

 

1 非全尺寸备胎的优点
作为汽车设计领域的技术难点,备胎槽的大小会受到后悬架结构、排气管布置、油箱位置以及后备厢上层设计的综合制约。简单来说,非全尺寸备胎胎宽小很多,后备厢地板下的空间就可以被压缩,地板上的行李装载空间就会更大。同时,鉴于备胎在现实用车过程中的使用率并不高,所以很多车企就压缩了备胎,从而换取更大的后备厢储物空间。


2“非全尺寸”备品备件的特点
与非全尺寸备胎原理类似,“非全尺寸”备品备件特点鲜明:  
  

(1)成本更低  
  

与跟换整套自清洗过滤器相比,焊接铁板的法兰盘显然成本更低; 
  

(2)抢修时间更短  
  

更换自清洗过滤器法兰盘,免除了拆卸未启用水系统法兰盘、钢刷主轴的步骤,大大节省了抢修时间;  
  

(3)占用空间更小  
  

可以想象,对比一整套自清洗过滤器,单独的一块法兰盘显然占用空间更小;  
  

(4)功能性下降  
  

安装焊死安装孔的法兰盘,自清洗过滤器不再具有清洗及排污功能。


3“非全尺寸”备品备件管理的特点   

(1) “非全尺寸”备品备件成本更低,且具有临时应急抢修的作用,“全尺寸”备品备件可待“非全尺寸”备品备件使用后另行采购,降低了备品备件初期采购成本;  
  

(2)备品备件库空间进一步压缩  
  

因“非全尺寸”备品备件尺寸的优势,数据中心在进行备品备件库规划时可压缩“全尺寸”备品备件的储存空间;  
  

(3)备品备件应急性更加突出  
  

因“非全尺寸”备品备件更换时间更短,应急抢修工作时效性更高。

 

四、结论
本文从一起数据中水系统故障抢修案例分析出发,提出了一种数据中心备品备件管理新思路,得出了以下结论:  
 

(1)“非全尺寸”备品备件的采购降低了备品备件采购成本、备品备件库空间需求,提高了故障抢修的时效性;  
 

(2)“非全尺寸”备品备件只作为应急抢修用,抢修完成后仍需采购“全尺寸”备品备件进行更换,保证备品备件功能性的完整;  
 

(3)“非全尺寸”备品备件管理为各类型企业备品备件管理的提供了新思路。