3.1 AI中台的主要成分
上图展示的是AI产品研发的生命周期,业务需求进来,要经过业务理解、模型学习、数据处理和运行监控四个大的步骤。
这四个步骤加上中台管理构成了AI中台主要成分:
-
业务理解,根据业务需求设计实施方案,服务编排,通用方案模板管理;
-
数据处理,包括数据获取和数据准备与分析;
-
模型学习包括特征工程、模型训练和模型评估,以及可复用模型库、算法库管理;
-
运行监控包括模型自动部署运行、性能监控和对外服务接口管理。
-
此外,为了便于对AI中台进行角色、权限统一控制和资源管控,我们还设置了中台管理模块。
3.2 从平台到中台的构建
构建数据中台时我们一般会采用从平台到中台演进的策略,AI中台的构建也是如此。
从平台到中台的跃迁过程中需要参考常见的机器学习平台,包括训练平台,部署/运行平台、监控平台、标注平台、建模平台、数据处理平台等。
我们可以根据现有平台完成AI中台的构建。建模平台具备业务建模、服务/模型建模的功能,可用于业务理解和模型学习的环节;训练平台具备模型自动化训练优化评估功能,可用于模型学习环节;数据处理环节需要进行数据分析、样本分析,可以用到数据处理平台和标注平台;而部署/运行平台和监控平台可为运行监控环节提供支持。由此可见,我们能够根据现有平台完成AI中台的构建。
上图是AI中台的能力图谱。
-
不论企业还是AI训练团队,最早都是从基础设施出发,包括数据接入、高性能计算资源、运行环境资源等;
-
然后在保障稳定的基础之上获得训练工具,包括模型训练追踪能力、算法框架支持能力等,实现过程的自动化;
-
有了训练工具的支撑,我们可以把常用的业务和环节进行聚拢和集中配置,形成AI平台,包括模型/服务结构可配置化、模型算法可复用化等,形成标准化的AI研发过程;
-
AI中台实际上是对现有能力进行整合串联,实现生命周期的管理,包括服务编排共享能力、方案可复用能力、全流程管理能力等,在标准之上实现提效,达到高效的目的。
上图将AI中台能力分别与成分、平台进行映射,并且以颜色进行区分与对应。
值得注意的是,这里我们只列出了部分中台能力,根据中台对业务的支持需要还可能会包含其他能力,需要我们去建设;此外,平台对中台的支持也是有限的,缺乏的功能或不全面的功能都要我们去丰富。
3.3 AI中台的流程及架构
上图从前台业务需求出发,根据AI中台的五个成分列出AI中台建设所需的主要功能组件。
-
业务理解部分包括方案模板管理、方案设计、服务编排、服务共享等;
-
数据处理部分包括数据展示、数据访问、数据分析、数据标注等;
-
模型学习部分包括服务设计、特征处理、模型训练、模型追踪、模型库、算法库等;
-
运行监控部分包括具体的产品封装、自动部署、性能监控、访问接口管理、模型更新和发布测试等;
-
中台管理部分包括角色权限、资源管理、租户管理和流程控制等。
将前文所述的功能构件映射到AI项目生命周期中得出上图所示的总体运转流程。
-
从业务需求开始,对业务进行理解,包括方案模板参考、方案设计、服务编排、服务共享等,如果需要复用其他服务,可以在这里进行访问配置;
-
数据处理部分的工作通过数据中台来完成,数据中台向上提供数据参考、向下提供模型训练及监控的支持;
-
模型训练部分形成比较复杂的循环,因为其本身就是一个自动化迭代的过程;
-
封装部分涉及到监控和对外提供访问接口等功能;
-
中台管理在底部提供构建支持。
下文将对各部分运转流程进行详细拆解。
业务理解中心
业务理解中心的运转流程如上图所示:
-
业务需求进来之后,先从数据处理中心获取数据分析和参考,采集数据样本提供可视化支持;
-
然后进行方案选择:是否具备可复用的方案模板?“是”即直接复用方案,只需改变数据;“否”即进行方案设计。
-
接下来是分解方案到各个服务中,并对服务进行合理有效的编排。此处还需考虑哪些服务可供复用;
-
最后输出三个方面的内容:向数据处理中心输出数据获取要求;向运行监控中心输出产品封装指导;向模型学习中心输出模型训练任务。
业务理解中心运转流程主要涉及三个角色:
-
业务分析师,分析相关方案设计、服务编排;
-
数据分析师,提供数据建议、方案设计建议;
-
算法工程师,考虑服务编排、服务之间的数据接口等。
数据处理中心
数据处理中心的运转流程如上图所示:
-
从业务处理中心获取数据要求规范,通过数据访问对接数据中台;
-
基于数据中台向上提供数据分析功能、数据展示及功能可视化;
-
通过数据展示获得参考,对数据进行标注;
-
操作数据访问,返回到数据中台,对数据进行重新加工。
-
最后对对外输出三个方面的内容:向业务理解中心输出数据分析参考;向模型学习中心输出模型训练数据;向运行监控中心输出生产数据。
数据处理中心运转流程主要涉及四个角色:
-
数据分析师,要求对其中主要环节都有涉猎;
-
业务分析师和算法工程师主要关注数据展示;
-
标注工程师,主要参与数据标注环节。
模型学习中心
模型学习中心是算法工程师的主要阵地,该部分的运转流程如上图所示:
-
接收来自业务理解中心的模型服务任务、数据处理中心的训练数据、运行监控中心的性能矫正信息,进行服务设计。服务设计时要考虑需要多少个模型?模型之间如何串联?算法库和模型库中是否有可供复用的算法与模型?
-
服务流程设计完成后进行特征处理;
-
将特征输入模型进行编码和训练;
-
将模型训练结果输入模型追踪的功能组件进行模型评估;
-
经过迭代获得最优训练模型输出到运行监控中心,同时输出数据操作到数据处理中心。
运行监控中心
运行监控中心是与业务用户直接相关的一环,由运维人员进行模型更新和性能监控。该部分的运转流程如上图所示:
-
接收数据处理中心提供的生产数据,通过访问接口处理输出,写回到数据处理中心;
-
接收模型学习中心的已训练模型服务、业务理解中心的产品封装指导,对产品服务进行串联封装、部署、发布、测试;(如果要封装的产品是对已有产品的更新,则先通过模型更新机制对现有模型进行合理启停更新操作之后再部署发布测试。)
-
向上将交互数据提供给访问接口,并对访问接口进行配置;向下提供性能指标给性能监控,如果发现问题及时报警,并反馈到模型学习中心进行重新训练。
AI中台层级架构
AI中台的层级架构如上图,AI中台处于数据模型服务与业务解决方案之间,向上连接业务向下沟通数据,每一个层级都有其可复用的机制。
中间部分从上而下分成业务理解、模型学习、数据处理三大板块;右侧的运行监控对产品和模型进行统一封装、对外统一的访问接口等;左侧是贯穿于整个流程始终的平台管理,包括角色权限、租户管理、流程控制、资源管理等。
(编辑:ASP站长网)
|