ODCC 灵犀技术总监朱颖航:重新定义云时代的服务器硬件监控(二)

2017/8/23 11:47:05 来源:DTDATA 作者: 分类:会议活动

大家下午好,我是来自灵犀的技术总监朱颖航。当前这么一个现状,我们的一套实践和解决方案,这个方案不一定是最优的方案。


我们当前硬件的监控通常会怎么做,大家通常会采用带内IPMI的方式,厂商会有接口,会定义各种各样的传感器。基于采集到的数据,后面会有一整套的服务,会避免和别的厂商有通用的接口。适配性的工作通常都是,如果你的厂商之前标准化品控做得好一点,那有可能你的工作量还好,如果品控差一点,有可能出现即使统一批服务器、同一个型号,可能它会有一些名称也会不一样,带来额外的适配性的工作。纯带内的Agent,采集的数据比较多,确定可以抓取109项除了IPMI,通过SMBIOS、CPU原生接口、硬盘/Raid原生接口和sysfs抓取,这些数据是目前带外的方式实现不了的。带内做带来另外一个问题,有一定的安全风险,而且成本比较高,前期投入研发的人力和投入的精力比较多,而且相当于随着服务器的更新换代,类型变化你也要去增加适配的工作。这又是一个带内Agent的技术门槛,一旦迈过这个技术门槛,带来的好处会大于它自己带来的危险。




我们定义新时代的监控系统有四大特性,第一在统一,相当于多个厂商,因为你是直接从硬件层面拿到数据,它就和你的厂商没什么关系。第二是完整,拿到数据是原生的硬件必须要提供的接口,第三个是后服务,包括故障的闭环和处理的能力。智能,对拓扑各方面成本和数据进行优化。这上面的数据是指通过刚才的方式之后,在白皮书的实践里得到具体数据的数量,在资产、性能、故障、配置,这四个数据其实都有自己的意义。第二是性能数据,对你的容量预测有比较大的帮助,这儿的故障数据和之前传统意义上理解的带外的方式故障数据有一定的差别,既然你可以带内可以实现一个Agent,你就在Agent完全可以做得更加智能和通用,可以把一些硬件相关的比较细的逻辑去优化Agent内部,然后对外突出的是更有价值的点,数据分析出来的结果,可以放到后服务,把数据传出去,这个逻辑基本不变,完全可以把它固化到Agent里面,让它做一个更智能更加有价值的Agent。配置数据,很多时候不是硬件故障,有一些额外的配置,这些配置怎么拿到,这些数据都会提供给业务,业务方就会结合这个数据的类型去定义一个监控基线,基于这个基线,最开始有一些简单的case,时间长了可以基于这些全方位的数据,做一些规则或者判断分析。解决问题的后服务能力,从选型到需求、预算、采购、到货、交付,这里业务OP叫业务运维。整体来说都是从发现问题到解决问题的思路,我们是立足于数据角度出发,无论从业务还是从我们自身去扣不同的点,找到优化的内容,全局的无论是大是小,联动做优化。


我们目前大部分还是处在第一阶段,人工阶段,下一个阶段是有专家经验之后的自动化阶段,第三个阶段要进入智能化阶段,第三阶段能在策略层面得到非常丰富的拓展和扩充。


我们有一个DEMO展示的过程。


DEMO展示界面会把详细的参数、指标和异常点展示出来,大家可以关注的是左边这列,相当于是从刚才提到的这些点里去梳理出来的细节的数据产品,这些数据产品是大家最核心关注的点,这些东西是可以演进的,按照刚才腾讯他分享的,我们可以用各种大数据的思路、大数据的协议,用流式计算还有基线处理的方式,这个是在后面支撑这个的方式,核心的出发点是我们究竟要做什么,这个东西体现出来的就是左边的东西。你去给用户报障的时候,你得分析出来到底什么问题,结合之前或者是结合故障本身的错误带来的影响,能把这个问题及时给用户报出来,这个是作为一个真正有价值的硬件监控应该体现的东西。


我们可以分析这些机器的能耗,这些能耗更理想的情况是CMDB联动去做展示和分析的。故障预测,基于我采集到的大规模的硬件数据,到底多长时间能给用户一个提前的反馈,当然这个故障预测完全可以和业务系统联动起来。告警中心这个比较简单,这是一个比较清楚的,所有的这个东西,整个系统来说是一个偏静态的东西,唯一通过把整个系统串起来的,无论是性能的报警还是系统的报警,都是通过这个东西把整个系统串起来,这是事件管理的中心。


整体上就这些,谢谢大家。

相关资讯

    暂无相关的资讯...

共有访客发表了评论 网友评论

验证码: 看不清楚?