机器与人如何协作?分享腾讯数据中心自动化运维的探索实践之路

2019/6/27 10:24:05 来源:DTDATA 作者:Mei 分类:特别报道

当前,物联网(IoT)、人工智能(AI)和机器学习正在走向一个不可阻挡的旅程,它们正在改变人们生活的每一个方面,但是只有通过数据中心收集和处理所有信息,人们将会继续从中受益。


充分利用大数据和 AI 技术,构建智能化运维管控模型,自动识别业务问题,简化运维操作复杂度,持续改善数据中心运行管理状况,成为今后数据中心管理的重要课题。如何利用这些新技术在数据中心管理中精准智能告警、智能异常检测、智能趋势预测是大家关注的趋势。


这样的新闻报道你可能看过:


上海银行数据中心迎来智能机器“巡检员”

数据中心将采用机器人监控机柜中的热点

京东金融发布京东智能巡检机器人

沉浸式混合现实(MR,即Mix Reality)运维通信系统正式投入生产环境运行

……


机器人时代要来了吗?数据中心运维管理中是否可以实现以更少的人员投入,同时保障更高效的运营管理水平? 如何控制风险?“人与机器”是对立,还是合作?机器人和人类是否可以合作管理基础设施?


6月25日,第十届DCD中国数据中心国际峰会上海站在上海中心大厦举行,在这个专题讨论中,主办方邀请到了腾讯数据中心研发总监岳上、业内专家肖建一、阿里巴巴基础设施一体化架构师汪刚博士、万国数据高级副总裁梁艳作为专家小组就以上话题进行了讨论。

专家小组专场讨论


数据中心智能化是一个趋势,很明显,这些技术促使了数据中心智能运维管理不断的演进。肖建一指出,数据中心运维管理的演进可分为三个阶段。阶段一,需要大量的运维人员,运维质量完全依赖个人经验能力及稳定性;阶段二,建立了驱动人工的机制及系统工具,依靠标准和流程将经验知识固化,并定量分析人力资源分配;阶段三,开始建设自动化智能运维,将重复性运维事务转由自动化系统负责,分析性事务转由AI介入协助,一定程度上大幅度降低了人力资源投入。


专家小组一致认为,数据中心智能运维自动化、智能化成功的基础是数据化,但数据要合理、有效、准确、可靠、安全,这些是前提。机器人起到作用时,则需要人工大量建模。


很多数据中心智能运维管理的应用场景是以事件为核心的全闭环运维问题处理模型。我们要思考的是:数据如何采集?效率如何?准确性如何?数据可以帮助实现什么目标?数据的价值在哪里?AI是一种手段,怎么用?AI解决的是什么问题?人机结合的目标是什么?


腾讯数据中心研发总监岳上表示,腾讯研发了一个数据中心管理软件平台——腾讯智维,它管理了腾讯内部约80个数据中心,超过百万台服务器设备。


在采集效率上,腾讯已经在研发新的数据和视频采集协议。通过新协议,可以打造更高效的监控网络,既更细致的了解数据中心现场运行情况,同时做到更低的网络负载。


在保证数据的准确性上,针对这些数据,腾讯从五方面入手:


① 测点侧,监控MDC测点接入率;

② 网络侧,通过技术手段,一旦网络出现问题,我们可以自动识别问题并判断根本原因,进而自动切换或者人工干预;

③ 视频侧,实时检查视频参数、视频格式和码率,发现问题及时告警;

④ 服务器侧,一旦服务器进风温度异常,及时告警;

⑤ 异常数值,对数值做了合理区间设定,系统算出异常值会预警开发者。


数据可靠性的提高,确实给现场运营带来许多新的改变,如CMDB自动发现设备——腾讯数据中心的所有设备上面都带有测点,可以通过测点的上报,来感知整个网络里的设备运行情况,从而发现新增/删除或者维修的设备,通过人简单核对就可以入库。如数据中心运营水平量化考核——从大量数据中,归纳计算出反应现场运营效率的数十个一级指标,上百个二三级指标,作为对现场进行考核的KPI指标,指导运维团队提升现场运营效率。


腾讯智维是腾讯近20年数据中心运营经验与云化技术相结合成果,利用腾讯数据中心先进的管理运维经验,腾讯强大的技术研发实力,安全保障能力,帮助客户持续提升数据中心运营的质量与效率,降低成本投入,将数据中心的价值极大化。



腾讯数据中心研发总监岳上

笔者也看到,这一年来,智维也在多方面进行着进化,包括有很多AI方面的探索。


岳上表示,未来数据中心会向无人值守进化,人机协同是一个过程,机器人做一些基础重复的工作会比人做的好,但AI不光是机器人,它更需要一个大脑。


比如腾讯觅踪,就是借助AI技术,结合腾讯内部数十年的数据中心运营经验,通过自研的高性能视频分发服务、智能跟踪服务、针对数据中心场景特别优化的H5图形渲染引擎等三大核心技术,依托云的池化、弹性等特性,在较低的成本下,实现了数据中心人员身份的精准鉴别,包括关键区域人员入侵检测、异常行为识别、人员随工监测等功能,并能够对可疑人员的活动轨迹实时跟踪定位、追溯和告警,从而满足园区人员全方位监控的细化需求。


腾讯觅踪就像是个能力强大、高度负责的机器安检员,7×24小时不眠不休的盯着园区上千个摄像头的实时画面,一旦发现异常便会立即告警。这个机器安检员还可以通过多个摄像头,实时追踪定位可疑人员,把对物的监控进一步扩展到对人的管控。


据悉,腾讯觅踪不仅可以应用在数据中心,还可以为很多大型功能园区,如工厂、医院、校园等提供视频安防解决方案。目前,它依托于腾讯智维平台,为客户提供服务。未来,腾讯觅踪也将作为独立产品向行业推出。




相关资讯

  • 绿色低碳趋势下,DTDATA携业内专家探讨如何实现数据中心高质量发展

    在节能减排、“碳中和”趋势下,绿色节能、低碳、可持续发展也成为了数据中心行业发展主基调。伴随着数据中心规模持续高速增长,也带来了诸多挑战,如何实现数据中心高质量发展?看专家们怎么说。

    2022/3/14 10:00:31
  • 数据中心节能监察:广州、深圳发布最新政策

    最近国家发改委频频为数据中心发声,广州、深圳也随之迎来了6月新政。

    2021/6/18 15:45:32
  • 黑石持续重仓IDC数据中心的背后

    6月7日,黑石集团(Blackstone Group Inc., BX)达成一项交易,以约67亿美元(约合428.57亿元人民币)收购数据中心运营商QTS Realty Trust Inc.(以下简称QTS),并将该数据中心运营商私有化。这是自2015年黑石加大数据业务投资力度后又一次收购数据中心项目。

    2021/6/9 10:44:08
  • GLOBAL SWITCH香港数据中心探秘~世界级的绿色数据中心

    与所有其他Global Switch数据中心一样,Global Switch香港数据中心提供了具有高容灾能力的环境,可通过多种连接方式支持可扩展的、灵活的解决方案。香港数据中心还符合Global Switch一流的运营和环境管理流程,并拥有超过Tier III的运营水准,成为了中国公司海外业务扩张布局的…

    2021/5/26 11:40:39