78118.com太阳城_x33138cm太阳城集团_澳门太阳娱乐赌城
78118.com太阳城78118.com太阳城

> 资讯动态 > 行业技术

资讯动态
总机: 029-89585600(白天)
技术部:13519115500
029-88443628
投诉电话:13909183533

智能运维

阅读次数:59,发布日期: 2017-03-31 14:28:20

    本文从智能运维出现的背景谈起,阐述了智能运维的几个要素:数据采集与处理、异常自动检测与处理、数据可视化等,最后对智能运维的发展进行了展望。

x33138cm太阳城集团


一、背景

       中国互联网发展非常迅猛,以BAT巨头中的百度为例,百度公司的产品研发数量从最初的几十个增长到今天的几百个,数据中心内的服务器数量从5年前的几千台到当前的几十万台。产品规模和服务器呈现出30-40倍的增长,产品开发架构的复杂度也在快速增长,之前多数门户网站采用的LAMP架构即(linux+Apache+Mysql+Php或 Perl 或 Python),当前产品的开发架构加入了Cache、非关系型数据库、大数据处理、离线Hadoop平台等元素。

       运维人员将面对更多的IT基础设施和场地基础设施、更多的产品和更为复杂的产品开发架构,运维人员目前主要面临以下的挑战:

1.IT和Facility分开管理

      据IDC报告:58%的数据中心将IT设备和Facility设备的管理由不同的部门来承担。虽然在一定程度上有利于管理和权责划分并保证专业性,但增加了部门间的沟通成本,降低了数据中心的运维效率,甚至提高了数据中心发生事故的风险系数。

2.使用了分散的管理工具

       首先维护多个分散的管理工具提高了管理和拥有成本,造成无法采用统一的界面获得所需要的信息;其次不同系统之间的数据难以关联和共享,在生成报表和业务预测及领导决策时尤其困难;最后需要花费大量时间去更新数据、保持数据的同步,甚至新老数据发生冲突时找不到原因,数据维护起来十分痛苦。因此,需要采用一套统一的智能运维管理平台,对数据定义、接口定义和数据库管理进行统一定义,在数据中心基础设施管理中尤为迫切和重要。

3.面对越来越多的监控指标、监控图表和报表,在运维人员没有得到大幅增长的前提下,如何从海量的指标(图表)中快速找出运维所关注的指标和图表呢?传统监控很难解决这类问题,加之人的精力非常有限,迫切需要一种新的运维手段来改变这一现状。

4.监控采集的数据量越来越大:监控采集的数据量从之前的几十T到今天的几百T海量存储,如何对海量数据进行存储、并给用户以直观方式展现出来辅助运维决策,是运维人员需要解决的问题。

5.大量出现的“报警风暴”干扰了运维人员对故障关联度的判断:随着监控指标的增加,报警也会加剧和增多。以百度为例,每天运维监控系统接到短信的报警数达到3-5万条、邮件报警数多达50-100万封,给运维人员处理报警增加了巨大的压力,可否有一套智能运维系统将相关度较高的报警聚合到一起呢?只把最需要关注的报警信息推送到运维人员。

6.问题诊断困难:传统监控系统通常是指标采集和图表及趋势图的展示。如何帮助运维人员诊断问题,并辅助运维工程师进行问题的分析与定位处理,是智能运维需要达到的目标,能对故障进行自我诊断、故障特征分析,是智能运维系统需要解决的问题。

二、数据采集与处理

       数据的采集与处理是智能运维系统的核心,也是智能运维系统的基础设施。

(1)采集对象:主要有三类,基础架构Server端的采集,主要是采集来自数据中心内的动力设备、IT硬件设备、日志、网络信息、容器、虚拟机等的信息;用户端的采集:从CDN、WEB、移动端,还有PC客户端产品的采集;应用端(软件层/服务层)的采集:Web服务器+App服务器的+文件服务器+负载均衡设备的。只有对以上三类对象进行了完整的采集,我们的智能运维系统才是完整的、报警才是没有遗漏的。

(2)采集数据:针对服务端主要是采集性能指标数据:服务器的CPU、内存,磁盘空间、网络消耗、日志等;针对用户端主要采集的是业务数据:流量、错误率、用户访问情况、操作信息、个性化操作记录等;还有一类是容易遗漏的,就是运维本身事件的信息:配置文件和服务器扩(缩)容操作。

(3)数据处理:一般会把原始采集的各类信息转变为时间序列的数据或结构化的数据,便于运维人员进行分析、判断与处理。智能运维系统一般通过三种方式:即物理集群、业务维度和跨单一维度来做聚合计算,如要计算某一网站的点击率,点击率=点击量/展示量,采用跨单一维度计算就很方便。从而为管理人员提供运营分析、使用效果的估算。

       建议运维人员多运用智能运维系统,不仅仅把它要当作是采集数据和报警的工具,还应当提高运维部署和运维的效率;让智能运维系统为运维工程师提供分析问题、解决问题的方法。

澳门太阳娱乐赌城


三、异常自动检测与处理

      传统监控系统对异常的检测手段主要有两种:一是通过设定恒定阈值,比如服务器的CPU使用率=10%就报警;二是同环比。比如PV环比下降>10%就报警,或是产品响应时间同比上涨>20%就报警。传统监控方式的优点是简单、易懂;缺点是需要大量的工程师人力投入,监控配置工作量大、维护成本高,变更发布频繁。很多情况下传统监控方式对阈值的敏感度不够高,解决不了特定的问题。比如:在面对波峰突降与波谷突增、缓慢偏离阈值的设定;不断漂移的阈值范围,传统监控一般不易捕捉到这类变化的状态信息。

      智能运维系统内置的异常自动检测模块可以提前对报警的数据进行分类,它采用了一种可判断数据是否具有周期性趋势的分类器来解决数据的周期性问题。如果数据具有很强的周期性特征,它就使用动态阈值设定法即采用动态时间窗口的阈值设定法来解决周期性数据的异常判断;如果数据分析后没有周期性特征,那么它就使用恒定阈值了。全自动的异常检测系统难免会出现误报、漏报等情况,这就要求异常检测模块支持运维工程师的标注与反馈,可同时支持人为调整和系统自动参数学习(机器学习)调整,系统可自动根据工程师的标注或报警量的多少,进行参数训练,把异常检测参数调整到合理的范围。

      异常处理的办法一般有1)时间序列数据分析,时间序列分析着重研究数据序列的互相依赖关系,实际上它是对离散指标的随机过程的统计分析。例如,记录了某地区第一个月,第二个月,……,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报;2)没有历史数据怎么办?可采用局部回归方法;能很快速地适应变化,找到突升突降的状态变化;3)缓慢偏离的情形:将采集数据的频率延长,然后对比之前的数据,从中找出变化较大的值。

四、数据可视化

      运维的本质是数据可视化,数据可视化是辅助问题分析的良方。

主要解决以下问题:

(1)快速看到想要的信息;

(2)辅助快速分析问题、解决问题;

(3)运维的本质是数据的可视化。

      要做数据的可视化,首先需要建立数据的关联:产品服务层级的关联关系、服务模块之间的关联关系、运维事件与指标数据关联关系;其次需要建立指标数据与事件之间的关联:同模块数据,部署同机房不同模块的数据,同指标维度的数据;同浏览器的数据;同版本号的数据,一切皆有关联。最后,对“数据立方体”操作切面:先选作一维数据做展示,再对二维以上的数据分析和数据可视化;然后对数据做上卷(向上聚合)和下钻(更细的粒度)处理;最后通过旋转,把维度切换出来。

      数据可视化呈现的方式:热力图:是多维数据报表的一种可视化形式;

‚地图:服务可用性、服务访问速度、延时等;ƒ事件流图:故障事件以时间轴表示,任意具有起始时间、终止时间列表可视化。时间与时序数据结合(使用方式)、异步的Transaction。④服务视图:Application Insight(应用分析工具)或Service Insight(服务分析工具);主要表现形式有:分维度树状图展示、基于模块关联关系的服务视图、全局服务视图:报警、运维事件数据。

  五、智能运维的未来展望

1.全方位覆盖

如何应对服务出现故障之前解决故障,让服务的可用性得到提高,那么就需要运维变被动应对为主动预防;在用户端(APP、浏览器等)、云端(机房、服务器、自身服务、第三方服务等)、管道(链路、运营商)等任何维度进行数据采集并进行异常自动检测,无死角地找到问题所在。

    2. 让运维监控系统更加智能

  • 分析运用已有数据,并把服务状态、问题影响分析等可视化

  • 自动学习并理解故障的趋势和模式

  • 自动发现服务或依赖环境的变更

       让系统理解故障的趋势或模式,从历史数据上学习帮助人解决问题;自动、发现应用或环境的变更,在故障发生之前就可以处理并解决故障,从而达成产品或服务的超高可用性目标。

3.远程运维管理

      采用远程巡检的方式,可在短期内对多地数据中心完成巡检工作,以提高效率、减少维护成本。对检查过程中发现的隐患,可尝试通过智能运维平台的故障处理工具进行修复;如需要现场进行处理的,通过服务平台触发问题升级版,并发送短信或者邮件给现场维护人员处理。

       未来的智能监控应该是这样的,运维工程师经过完善的监控部署,实现全方位的异常自动检测覆盖,同时,在系统刚出现故障征兆,有损之前就进行处理并解决,确保产品或服务的高可用性、高稳定性,实现完整的智能化运维解决方案。

澳门太阳娱乐赌城