文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

人工智能如何创建自动驾驶数据中心

2024-12-24 16:03

关注

[[338065]]

人工智能在提升数据中心效率以及扩展业务方面的潜力可分为以下四个主要类别:

综上所述,人工智能可以帮助企业创建高度自动化、安全、自我修复的数据中心,这些数据中心几乎不需要人工干预,并且能够以高水平的效率和弹性运行。

戴尔技术公司全球CTO办公室的杰出工程师Tabet解释说:“人工智能自动化可以扩展到超出人类能力的水平来解释数据,收集优化能源使用、分配工作负载和最大化效率所需的必要见解,以实现更高的数据中心资产利用率。”。

当然,就像自动驾驶汽车的承诺一样,自动驾驶数据中心还没有出现。在数据中心,存在着阻碍人工智能突破的重大技术、操作和人员配备障碍。如今,采用技术才刚刚起步,但潜在的好处将使企业不断寻找机会采取行动。

[[338066]]

电源管理利用服务器工作负载管理

据估计,数据中心将消耗全球3%的电力供应,造成约2%的温室气体排放,因此,无论是为了省钱,还是为了环保,那么多企业都在认真研究数据中心的电源管理。

451Research的高级分析师丹尼尔·比佐(DanielBizo)表示,基于人工智能的系统可以帮助数据中心操作员了解当前或潜在的冷却问题,例如,由于高密度机柜堵塞气流、HVAC装置性能不佳或冷热通道之间的空气密封不足而导致的冷空气输送不足。

Bizo说,人工智能承诺提供“不仅仅是良好的设施设计所能带来的好处”。人工智能系统在数据中心层“可以通过关联暖通空调系统数据和环境感知读数来学习设备”。

IT咨询和咨询公司StorageIO的创始人格雷格·舒尔茨(GregSchulz)补充说:“电源管理是一个很容易实现的成果。”今天,它是关于生产力的,关于每BTU完成更多工作,每瓦能源完成更多工作,这意味着工作更智能,让设备工作更智能。”

还有一个容量规划的角度。除了寻找热点和冷点之外,人工智能系统还可以确保数据中心为适当数量的物理服务器供电,并且在需求临时激增的情况下,有能力启动(和关闭)新的物理服务器。

Schulz补充说,电源管理工具正在开发连接到管理设备和工作负载的系统的挂钩。例如,如果传感器检测到服务器运行太热,系统可能会快速自动地将工作负载转移到未充分利用的服务器上,以避免可能影响任务关键型应用程序的潜在停机。然后系统可以调查服务器过热的原因——可能是风扇出故障(HVAC问题)、物理组件即将崩溃(设备问题),或者服务器刚刚过载(工作负载问题)。

人工智能驱动的健康监控、配置管理监督

数据中心充满了需要定期维护的物理设备。人工智能系统可以超越定期维护,帮助收集和分析遥测数据,从而确定需要立即关注的特定区域。”人工智能工具可以嗅出所有这些数据和斑点模式,以及异常点,”Schulz说。

Bizo补充说:“健康监测从检查设备配置是否正确以及性能是否符合预期开始。”由于有成百上千个IT机柜和数万个组件,这些平凡的任务可能是劳动密集型的,因此并不总是能够及时彻底地执行。”

他指出,基于大量感官数据日志的预测性设备故障模型可以“发现一个即将出现的组件或设备故障,并评估其是否需要立即维护,以避免任何可能导致服务中断的容量损失。”

JuniperNetworks负责企业和云营销的副总裁MichaelBushong认为,企业数据中心运营商应该忽略一些与人工智能相关的过度宣传和炒作,而专注于他所说的“无聊的创新”

是的,人工智能系统可能有一天会“告诉我问题出在哪里,并加以解决”,但是到了这一点,许多数据中心运营商会接受“如果出了问题,请告诉我要去哪里看”,Bushong说

依赖关系映射也是AI有用的一个重要但不是特别令人兴奋的领域。如果数据中心经理正在对防火墙或其他设备进行策略更改,可能会产生什么意外后果?”如果我提出一个改变,知道爆炸半径范围内可能有什么是很有用的。

保持设备平稳、安全运行的另一个重要方面是控制所谓的配置漂移(configurationdrift),这是一个数据中心术语,指的是随着时间的推移,临时配置的变化会导致问题的产生。Bushong说,人工智能可以作为“额外的安全检查”来识别即将发生的基于配置的数据中心问题。

人工智能与安全

Bizo认为,人工智能和机器学习“可以通过对事件进行快速分类和聚类来简化事件处理(事件响应),从而识别出重要事件并将其与噪声分离开来。更快的根本原因分析有助于操作员做出明智的决定并采取行动。”

人工智能在实时入侵检测中特别有用,Schulz补充道。基于人工智能的系统可以检测、阻止和隔离威胁,然后可以回去进行法医调查,以确定到底发生了什么,黑客能够利用哪些漏洞。

在安全操作中心(SOC)工作的安全专业人员经常会收到过多的警报,但基于人工智能的系统可以扫描大量的遥测数据和日志信息,从而清除日常任务,从而使安全专家能够腾出时间来处理更深层次的调查。

基于人工智能的工作负载优化

在应用程序层,AI有可能自动将工作负载移动到适当的着陆点,无论是在内部部署还是在云端。”AI/ML将来应该根据性能、成本、治理、安全、风险和可持续性的众多规范,实时决定在哪里放置工作负载。

例如,工作负载可以自动移动到最省电的服务器,同时确保服务器以最高效率运行,即70-80%的利用率。Bizo说,人工智能系统可以将性能数据整合到等式中,因此对时间敏感的应用程序在高效服务器上运行,同时确保不需要快速执行的应用程序不会消耗过多的能量。

基于人工智能的工作负载优化引起了麻省理工学院研究人员的注意,他们去年宣布他们开发了一个人工智能系统,可以自动学习如何在数千台服务器上调度数据处理操作。

但是,正如Bushong所指出的,现实情况是,如今的工作负载优化是像亚马逊、谷歌和Azure这样的超大规模公司的专利,而不是一般的企业数据中心。原因有很多。

实施人工智能的挑战

优化和自动化数据中心是正在进行的数字化改造计划的一个组成部分。戴尔的Tabet补充道,“借助COVID-19,许多公司现在都在寻求进一步的自动化,推动人工智能驱动、能够自我修复的‘数字数据中心’的理念。”

谷歌在2018年宣布,已将其数个超规模数据中心的冷却系统控制权转为人工智能程序,该公司报告称,人工智能算法提供的建议使能源使用量减少了40%。

但是,Bizo说,对于那些名字不是谷歌的公司来说,在数据中心使用人工智能“在很大程度上是一种理想”。一些AI/ML特性在事件处理、基础设施运行状况和冷却优化中可用。但是,AI/ML模型要取得比目前标准数据中心基础设施管理(DCIM)更明显的突破还需要更多年的时间。与自主汽车开发非常相似,早期阶段可能很有趣,但与它最终承诺的突破性经济/商业案例相去甚远。”

Tabet认为,一些障碍是“需要雇佣或培训合适的人员来管理系统。另一个需要注意的问题是数据标准和相关体系结构的需要。”

Gartner这样说:“AIOps平台成熟度、it技能和运营成熟度是主要的阻碍因素。高级部署面临的其他新挑战包括数据质量和“IT基础设施和运营团队”缺乏数据科学技能。

Bushong补充说,最大的障碍一直是人。他指出,外雇数据科学家对许多企业来说是一个挑战,对现有员工的培训也是一个障碍。

另外,Bushong说,员工抵制技术的历史由来已久。他指出,软件定义网络(SDN)已经存在了十年,但仍有四分之三以上的IT运营仍由CLI驱动。

“我们必须相信,各种基础设施的运营商准备把控制权让给人工智能,”Bushong表示。“如果一群人还不相信空管员能做出决定,那么你怎么训练、教育和安慰一群人,让他们做出如此重大的转变呢?业内普遍的态度是,如果我这么做,我就会失业。”

这就是为什么Bushong建议企业在人工智能方面采取那些小而乏味的步骤,而不是陷入经常围绕一项新技术的炒作中。

 

来源:千家网内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯