分布式主动感知在智能运维中的实践(5)

发布时间：2019-07-11 22:04 所属栏目：117 来源：肖云朋

导读：四、如何实现主动感知 4.1 痛点我们的业务运行在IT环境中，这个IT环境就是承载业务的IT，包括数据中心、服务器、各种系统、三方应用、网络用户的设备等。而随着云平台的建设和微服务的发展，很多部分运维人员观察

四、如何实现主动感知

4.1 痛点

分布式主动感知在智能运维中的实践|分享实录

我们的业务运行在IT环境中，这个IT环境就是承载业务的IT，包括数据中心、服务器、各种系统、三方应用、网络用户的设备等。而随着云平台的建设和微服务的发展，很多部分运维人员观察不到，再加上出于投入产出比的考虑，一些部分我们不会去观察，因此，实际上运维人员能够观察到的IT远远小于真正承载业务的IT。

在运维可观察的IT环境中，真实观察到的IT数据往往仅包括交换机的流量包、进程的运行状态、网卡流量、CPU使用率、请求数等数据。如果要建设AIOps，数据的完整是非常重要的，观察的IT环境越多，获取的数据越完整，越有利于AIOps的建设，这时就需要用到主动感知。

4.2 主动感知定义

分布式主动感知在智能运维中的实践|分享实录

Wikipedia对主动感知的定义如下：

Active Perception is where an agents' behaviors are selected in order to increase the information content derived from the flow of sensor data obtained by those behaviors in the environment in question. ——Wikipedia

通俗来说，主动感知其实是赋予每个参与者一个身份，这个参与者会主动获取环境中的数据，同时会根据从环境中获取的数据主动进行进一步的发现并获取新的数据，目的是增加获得数据的信息量、信息价值。

上图展示了一个比较典型的主动感知流程，重点来看感知部分。感知器从环境中通过情景感知、情景理解和预见的方式去感知环境，产生一个决策，决策产生一个动作，动作反馈到感知。

4.3 主动感知领域

分布式主动感知在智能运维中的实践|分享实录

主动感知在人工智能领域并不是一个陌生的名词，它已经有大量的应用，包括：
机器人，机器人怎么观察环境、怎么查看边缘信息、怎么识别物体。
自动驾驶，如果将现实中获取的所有图像数据都交给一个中心去处理，这个信息量和计算量是非常大的，目前的芯片还不能满足这样的体量处理。我们的方式是在探知环境数据的时候感知变化，获取变化数据。
智能手机，主要体现在手机的GPS、摄像头，可以感知环境变化。直接作用并影响到人。
路网监控，路网识别，包括主动感知车速变化，判断行驶的车辆是否超速。

4.4 分布式主动感知

分布式主动感知在智能运维中的实践|分享实录

AIOps引入分布式主动感知：

通过对真实 IT 环境的参与者建立模型，有目的的获取相关 IT 数据，并基于获取到的数据持续优化获取的数据和方法，以实现对真实 IT 实时完整的监控。

传统的监控方式是被动的，通过被动采集是不可能采集到所有数据的，无法保证数据的真实完整。如果能够对所有的IT参与者进行建模，通过模型去感知真正参与者的身份什么样的、有哪些数据，就可以采集到更加实时和完整的数据。

1）主动感知建模

主动感知的建模涉及到本地建模和全局建模。本地建模只需要关注IT参与者是什么，比如一个职场、一个主机；全局建模需要考虑全国有多少个职场、都分布在哪里、如何将它们联动起来。

2）主动感知的动作

主动感知的动作包括两个方面：有主动筛选的被动感知和有主动行为的主动感知。

有主动筛选的被动感知，比如网卡流量数据都是实时监控的，但我并不会把所有数据都收集起来，只有在数据陡增或出现异常时才会收集，这就是主动筛选。
有主动行为的主动感知，在真正获取环境数据时，只是粗略获得一些内网中机器的端口，如果发现有端口是危险的，就会对这些端口进行细致的探测，包括发一些协议请求去模拟这些行为，这就是有主动行为的主动感知。

3）主动感知的方法

主动感知的方法有两种：基于规则和基于智能算法（比如贝叶斯决策树）。基于规则的方法是目前使用最多的。

4）主动感知的数据类型

主动感知的数据类型包括画像数据、参与者与参与者之间的关联关系、主动筛选和主动行为的细节捕捉、定位跟踪等。

5）主动感知系统

主动感知系统包括全网Agent、业务Agent、网络Agent、应用Agent，这些都是我们的感知器。

4.5 全网感知模型

分布式主动感知在智能运维中的实践|分享实录

用一个例子来细化什么是分布式主动感知。

全网感知的背景：宜信在全国各地有很多职场，这些职场都是重要的参与者，每个职场里有很多业务人员在使用业务系统，需要对这些职场进行监控。

我们用分布式主动感知的方法，首先建立模型，即职场网络。在职场放一个Agent，因为职场分布在全国各地，本身是全网的，因此称之为全网Agent。感知的内容包括出口有哪些；网络、身份识别；这个网络有多大；边缘探测；还包括内部一系列的统计数据，同时还会做内部内网的风险监测，甚至会通过模拟数据、诱导攻击来发现内网是否存在安全隐患。

4.6 全网感知应用

分布式主动感知在智能运维中的实践|分享实录

全网Agent获取当地职场信息，包括出口、网段、地理位置和运营商信息，并反馈到拓扑和图谱中，同时ITSM会管理所有的组织和职场信息，这些职场身份信息和主动感知的Agent反馈的信息结合，绘制出一个准确而详细的拓扑/图谱。
全网Agent从网络中获取并反馈所有职场设备及其分布情况。
全网Agent会嗅探风险端口、扫描攻击，并反馈风险的细节扫描数据。
全网Agent会将网络统计数据反馈到系统中，帮助完善拓扑和监控。
我们可以通过网格数据加上职场身份给不同 Agent加上不同的监测模拟配置，由Agent发起模拟监测的数据。当发现异常时，可以从全网获取更详细的拓扑网络监测和密集系统检测数据。

分布式主动感知在智能运维中的实践|分享实录