别一口一句大数据,话说你真的懂运维大数据?

启迪云 | 王阳

前言

奥门永利误乐域 1

关于运维大数据,业界已经有不少言论,但往往是众说纷纭,甚者是”管中窥豹“,尚无对运维大数据的一个全面见解。今天,本文就基于自己在运维大数据从业岗位上积累的经验,向大家系统地阐释一下个人对运维大数据的认识,供大家参考。

IT运维管理信息化建设的终极目标就是:智能化运维管理。

一、运维大数据产生的背景现状

简单来说就是用电脑代替人脑。这就要靠大数据技术对运维管理中产生的大量数据进行挖掘分析从中找到有用的知识和信息,让计算机系统逐步的进行自我学习!

随着IT运维架构的日趋复杂化,传统的IT运维管理方式更多关注的是对资源故障预警的时效性、监控指标种类的全面性、运维流程执行的规范性等,据了解,现阶段许多企业已借助相应的自动化运维工具来满足日常运维管理需要,且各个工具收集的运行数据和日志记录量每月呈TB级以上的增长趋势,然而现实的情况是,这些工具日常使用到的历史数据还不到10%,多数仅用于周末或月末的统计报表。归其原因,一方面,传统的自动化工具均以轻量级架构为主,其无法支撑T级以上的海量数据分析处理和并行计算,特别是庞大的日志、性能和告警等数据;另一方面,许多自动化工具为保证其查询统计效率往往会对较长的历史数据采用一些压缩策略而丢弃一部分,让很多有用的运维数据无法为未来管理发挥作用。

奥门永利误乐域 2

奥门永利误乐域,所以,当前已经有不少企业开始思考,如何利用大数据技术分析处理日益累积的各自动化工具产生的运维数据、各业务系统产生的日志数据,对其进行运维挖掘预测,从而改进当前的工作方式,以支撑业务更好地运转。

为什么大数据技术能实现这些数据挖掘呢?

二、运维大数据的获取

大数据分析是基于全体数据的分析,让我们可以获得更多有用的信息。

要想用大数据技术挖掘运维数据的价值,数据的收集无疑是关键。针对目前各个企业采用的自动化运维管理工具参差不齐,那市场上能够对接不同自动化工具的运维大数据分析平台似乎已变成了”刚需“。数据的收集固然重要,但并不意味着需要分析自动化运维工具产生的所有数据,更主要是着重分析一些实时变化的运行监控数据和服务过程数据。从运维监控层面来讲,一般包括设备性能数据、阈值告警数据、应用日志数据等。

利用大数据分析技术对于非结构化数据比如文本、视频等的数据进行分析。

设备性能数据: IT运维工具根据实际的运维管理需求,主动轮巡收集的网络设备、服务器、存储、虚拟机、数据库和中间件等IT基础设施的运行指标数据。

利用运维数据之间的逻辑关系,将夸多个业务节点的交易串联起来!

阈值告警数据:IT运维工具对监控的设备性能数据超过指标阈值而产生的报警类数据。

奥门永利误乐域 3

应用日志数据:IT设备或应用程序自身产生的操作记录数据,例如Syslog,Trap等。

大数据技术会使用到的相关技术包括抽取、计算、存储等等上图均有列举!

运维大数据分析工具采用对历史运维数据构建的机器自动化学习模型,其算法虽然对抓取的运维数据量和时间范围没有明确的要求和限制,但为了尽量保证结果的准确性,往往是抓取的运维数据量越大、时间范围越长,分析的结果才会更加准确真实。

奥门永利误乐域 4

 

大数据分析技术获得的荣誉自然是少不了!

三、如何分析?对运维管理带来什么应用价值?

奥门永利误乐域 5

关于运维大数据分析技术的方法,从监控大数据分析维度,归纳总结无外乎两类分析是最常见和最核心的,一个是数据相关性分析,另一个是数据周期性分析。

你可以把我们这个模型理解为系统的医生我们能做到以下两点:

l 相关性分析(同一时间不同维度)——用于跨业务系统、跨软硬件设备、跨自动化工具等产生的多个指标之间的内在关联性,主要用于运维故障根源挖掘和发现潜在原因。

提前发现信息系统的亚健康状态

方法应用:告警根源挖掘

当系统发生故障时快速准确找到病因对症下药,并快速解决问题

不知道大家有没有听说过沃尔玛”啤酒+尿不湿“大数据相关性分析经典案例?我们先姑且不考虑这个故事的真实性,相信听过的人都能体会到这个销售故事的精妙之处。原本看似风马牛不相及的两个事物,经过数据分析却发现有着“惊人”的联系。同样,我们在研究运维大数据分析方法的过程中,发现此分析方法能够帮助运维管理人员有效地找到告警信息发生的根源。

奥门永利误乐域 6

怎么理解呢?不妨来看个例子。

我们把平时解决常见故障的知识变成规则灌注到模型中,利用这个模型我们可以模拟高级工程师在发生故障时从一步步排查,到解决故障的整个过程。在加快电脑处理速度的同时,让初级工程师也能达到高级工程师的解决问题的效率和效果。

A服务器和B服务器在业务上相链接。A服务器的Tomcat,因CPU占用高,告警了;B服务器的Oracle死锁数增长,产生了报警。结果,用大数据相关性分析技术分析历史的运维告警数据却发现这两个看似毫无联系的指标同时告警的概率居然高达90%,更让人惊讶的是,在进一步的相关性挖掘后又发现:往常的告警信息与A服务器Tomcat的CPU同时告警的指标居然还有C交换机的某端口流量和A服务器的URL响应时间,而几率分别为85%和80%。这样,运维人员便可利用运维大数据技术不断实时学习分析的特性,根据这个相关性概率挖掘出告警产生的根源指标问题,进而不断丰富运维关系库、知识库,大大节省了人工排查的人力、物力、财力,也从根本上解决潜在问题、消除安全隐患。

发表评论

电子邮件地址不会被公开。 必填项已用*标注