RFID技术在G行数据中心管理工作中主要应用在两个方面:一是为解决机房巡检、设备维护等人员在机房内的位置不可感知问题,即采用基于RFID技术实现室内人员实时定位。二是为解决机房内服务器设备在机柜内的精准定位问题,借助RFID标签进行设备U位管理。
但是在RFID技术方案的实际落地中,其自身技术特性也会带来的一些挑战。
在室内人员实时定位过程中,由于无线电通信信号在空间上的不定向和机房内无线电环境的不均衡,可能导致机房模块间信号漂移。由于无线电的非封闭性和机房模块基础设施差异,也可能导致信号在机房模块外发生误读。
在设备U位管理过程中,由于U位标签和U位管理器为吸附方式连接,在特定情况下,会出现信号失真,从而导致基于设备定位信号的误告警。
本文着重介绍G行对上述问题的解决思路和实践方法,希望起到抛砖引玉的作用。
1.人员位置定位
G行基于RFID技术实现对机房内人员的实时定位,定位精度在1.5米左右。人员携带的定位卡将卡号和附近天线编号发送给室内的定位基站,从而将人员定位到他所在的天线位置。如下图所示:
图1:基于RFID的室内人员定位示意图
由于机房内设备部署情况不同,机柜开关门状态不同,特定情况下,定位卡可能会接收到远方的较强天线信号(俗称飞点),导致定位卡发出的定位信号与人员实际位置偏差很大,产生数据异常。
G行的解决方法是通过软件对下一个正常点进行预判来过滤飞点。具体原理是:人员在机房内的信号点定位应该是连续的。基于前面的定位信号,后面出现的定位信号通常不可能突变。通过软件建模时设定每一个点位的下一个可能的信号点,如果接收到的信号点不在上一个点位的下一个可能点位中,则直接忽略错误信号。屏蔽掉偶发的信号飞点后,人员定位更加准确,轨迹更加平滑。
图2:软件过滤飞点示意图
同时,由于机房模块间信号隔离不强,会导致佩戴定位卡的人员在模块之间的走道经过时,偶尔读到模块内的天线信号,从而误判人员已经进入模块,触发人员误进入模块间的告警。
G行的应对方法是采用告警延迟算法来屏蔽此类人员进入模块间的误判。因为人员在走道间收到机房模块内天线信号的时间都非常短,可以采用告警延迟判断机制来分辨,即:判断人员是否进入一个模块时,将判断该信号是否持续超过一定时长,对于未达到一定时长的信号,不触发告警。这样就有效解决了机房模块间天线信号偶然泄露导致的误告警,提高告警的有效率。
2.设备U位管理
G行采用RFID技术对机房设备进行设备U位管理,对机架服务器的管理精确到U位级,对刀片服务器的管理精确到槽位级。基本原理如下:U位设备标签通过与U位管理控制器的天线部分进行吸附,进而上传U位标签所在设备的U位位置和在线状态。
图3:U位标签与天线吸附示意图
为方便U位标签的吸附操作,磁吸设计较为精密。有时,在U被标签与磁吸吸附不完全,会发出假离线信号,而下线信号发出后,往往后续很快又发出在线信号,出现设备在线信息的时断时续的现象。
G行的应对方法是通过U位硬件和后台监控管理软件的设计,过滤掉以上的短时干扰信号。设备U位硬对于短时间内下线后又上线信号,不再立刻上传。 同时在后台监控管理系统中,对于短时间内接收到的下线和上线信号波动,也进行忽略处理,不对外发送告警。从而有效解决了由于人工吸附不够精密导致的设备误下线告警,提升设备下线告警的精准度。
3.后续展望
G行将RFID技术应用于数据中心的人员定位和设备管理的过程中,经过不断的探索,通过对后台软件和终端硬件的持续调整,初步解决了人员定位的信号漂移和信号误读,以及设备U位管理的硬件信号失真等问题,基本做到了人员定位和设备定位以及相关告警的精准。同时,也深切体会到要用好以RFID为代表的物联网技术,需要针对物联网技术本身特点,进行软硬件两方面的持续配合和调优,才能达到新技术应用的预期的效果。
后续,G行还要进一步加强对物联网终端健康度的监测,包括加强终端的网络心跳和数据心跳监测等,进一步确保系统的可靠性。