分布式主动感知在智能运维中的实践(5)
4.1 痛点我们的业务运行在IT环境中,这个IT环境就是承载业务的IT,包括数据中心、服务器、各种系统、三方应用、网络用户的设备等。而随着云平台的建设和微服务的发展,很多部分运维人员观察不到,再加上出于投入产出比的考虑,一些部分我们不会去观察,因此,实际上运维人员能够观察到的IT远远小于真正承载业务的IT。 在运维可观察的IT环境中,真实观察到的IT数据往往仅包括交换机的流量包、进程的运行状态、网卡流量、CPU使用率、请求数等数据。如果要建设AIOps,数据的完整是非常重要的,观察的IT环境越多,获取的数据越完整,越有利于AIOps的建设,这时就需要用到主动感知。 4.2 主动感知定义Wikipedia对主动感知的定义如下:
通俗来说,主动感知其实是赋予每个参与者一个身份,这个参与者会主动获取环境中的数据,同时会根据从环境中获取的数据主动进行进一步的发现并获取新的数据,目的是增加获得数据的信息量、信息价值。 上图展示了一个比较典型的主动感知流程,重点来看感知部分。感知器从环境中通过情景感知、情景理解和预见的方式去感知环境,产生一个决策,决策产生一个动作,动作反馈到感知。 4.3 主动感知领域
4.4 分布式主动感知AIOps引入分布式主动感知:
传统的监控方式是被动的,通过被动采集是不可能采集到所有数据的,无法保证数据的真实完整。如果能够对所有的IT参与者进行建模,通过模型去感知真正参与者的身份什么样的、有哪些数据,就可以采集到更加实时和完整的数据。 1)主动感知建模主动感知的建模涉及到本地建模和全局建模。本地建模只需要关注IT参与者是什么,比如一个职场、一个主机;全局建模需要考虑全国有多少个职场、都分布在哪里、如何将它们联动起来。 2)主动感知的动作主动感知的动作包括两个方面:有主动筛选的被动感知和有主动行为的主动感知。
3)主动感知的方法主动感知的方法有两种:基于规则和基于智能算法(比如贝叶斯决策树)。基于规则的方法是目前使用最多的。 4)主动感知的数据类型主动感知的数据类型包括画像数据、参与者与参与者之间的关联关系、主动筛选和主动行为的细节捕捉、定位跟踪等。 5)主动感知系统主动感知系统包括全网Agent、业务Agent、网络Agent、应用Agent,这些都是我们的感知器。 4.5 全网感知模型用一个例子来细化什么是分布式主动感知。 全网感知的背景:宜信在全国各地有很多职场,这些职场都是重要的参与者,每个职场里有很多业务人员在使用业务系统,需要对这些职场进行监控。 我们用分布式主动感知的方法,首先建立模型,即职场网络。在职场放一个Agent,因为职场分布在全国各地,本身是全网的,因此称之为全网Agent。感知的内容包括出口有哪些;网络、身份识别;这个网络有多大;边缘探测;还包括内部一系列的统计数据,同时还会做内部内网的风险监测,甚至会通过模拟数据、诱导攻击来发现内网是否存在安全隐患。 4.6 全网感知应用
上图展示的是我们全网感知的一些示例,包括职场信息、组织信息、模拟监控数据、动态监测配置,不展开细述。 4.7 网络感知模型上图展示的是网络感知模型,我们首先进行建模,建模的点,也就是网络的参与者,即每个交换机,并实时监测和扫描网络内部所有服务器。通过这个模型可以直观且实时看到异常细节数据,保证网络质量。 上图展示了网络感知的示例。 4.8 主机/应用/业务感知除了上述应用以外,还有主机/应用/业务感知等等。
4.9 收益分布式主动感知的收益包括:
4.10 问题与前景1)问题主动感知在AI领域的应用已经有很多成功案例,但在AIOps领域还是新兴事物,还存在很多问题:
2)前景
(编辑:ASP站长网) |