2.1 什么是智能运维(AIOps)?
BMC给了AIOps定义是:
AIOps refers to multi-layered technology platforms that automate and enhance IT operations by 1) using analytics and machine learning to analyze big data collected from various IT operations tools and devices, in order to 2) automatically spot and react to issues in real time.
简单来说,就是引入多层平台,使用大数据分析和机器学习等方法,加强IT运维自动化的能力。
上图底部三张小图分别表示2016、2017、2018年的AIOps架构演进,都是围绕Machine Learning和Big Data来建设的。
2.2 技术、场景与算法
AIOps涉及的技术、场景和算法如图所示。
1)技术层面
-
大数据分析:主要关注点在分析的部分,包括基于海量数据的分析。
-
机器学习:数据量太大,人工的简单分析远远不够,需要它自己产生智能,这是机器学习的价值。
-
知识图谱:日常运维会产生各种经验数据,这些数据如何反过来对运维工作产生真正的价值,这就涉及到知识图谱。
-
自然语言处理:自然语言处理是ChatOps能引入到AIOps这个领域的原因,我们希望能够找到一个相对简单且容易接受的交互界面,最好的就是聊天平台Chat,这就需要使用自然语言处理的方式,理解人的语言并反馈给人,并理解相关的执行动作。
2)涉及场景
-
单指标异常检测:比如想要知道一个实时数据的指标是否出现异常,我们可以对它进行检测,如有异常就反馈出来。
-
多维指标异常检测:指标和指标之前是有关系的,通过比如聚类的一些操作能够检查出更多异常。
-
趋势预测:主要体现在成本部分,能够通过人工智能的方式预测出未来的增长和变化,更好地指导决策。
-
日志异常检测:检测日志是否出现异常。
-
根因分析:出现故障时,能够从时间维度和空间维度找到导致故障出现的原因。
-
智能问答:以前每次变更操作都需要向运维提出要求,现在这些职能全部被承接下来变成一个智能平台,日常运维的工作可以通过智能平台或机器人直接完成。
-
智能执行:这是我们期待的最好的方式,通过聊天窗口能够实时感知线上业务发生的变化,需求提交给平台后平台会自动执行。
3)算法层面
- 变分自编码器、GBRT、EMA、极限理论
- Pearson 相关系数、DBScan 算法
- FP-Tree
- Path Ranking
2.3 AIOps平台架构
上图所示是一个比较典型的AIOps平台架构。
底层是所有数据的来源,我们把大量数据收集起来,通过实时分析交付到算法平台。算法平台包括三部分,首先是基于规则和模式进行简单的分类,然后通过域算法,最后通过机器学习和AI的方式影响Operation,让自动化运行起来。
如果大家了解AI,就会发现这其实就是一个AI智能体,包括从Sensing到Thinking到Acting,即感知到思考到执行的过程。
(编辑:ASP站长网)
|