AI中台:一种敏捷的智能业务支持方案(分享实录)(3)
前文通过对智能化业务需求和数据中台的分析解释了建设AI中台的背景和原因,但AI中台的目标究竟是什么?其基本要求和能力有哪些?接下来我们将对此进行详细讨论。 2.1 AI任务划分与敏捷需求 AI中台需要灵活地支持各类AI任务,解决各类任务敏捷化过程中的需求与痛点。当前,企业智能化需求各不相同,导致相应的AI任务也种类繁多。 对AI任务类型有许多种划分方法,例如经典地按任务目标可分为回归、分类、聚类、标注等等。 这里我们采用另一种划分方式,认为所有的AI任务都可以划分成为两类: 一种是针对某个业务领域内特定类型数据,提供对此类数据的基础AI学习、预测、分析能力的“横向”任务,例如计算机视觉、自然语言处理任务等; 另一种则是面向业务具体需求的、相对特殊化与个性化的“纵向”任务,例如金融领域的智能风控、电商领域的产品推荐以及比较常见的用户画像构建等。 就这两类AI任务来说,无论哪类任务都可以独立对外服务,也可以混合起来相互之间集成、组合,形成AI解决方案来支持更复杂的业务场景。我们构建智能化业务应用的核心就是将智能化需求分解、映射为具体的AI任务并一一实现,最后再进行合理地编排组合,实现任务目标。 但另一方面,在两类任务的实施过程中,其敏捷化需求存在着不同,对AI中台应该提供的服务需求也不同。相对而言,横向任务的敏捷化比较容易实现。 对于横向任务,除部分场景外,很多时候其本身并不直接解决业务需求,常作为基础模型对数据进行初步加工,再由一些纵向任务来对接需求。这也给算法实施团队充足的时间对横向任务模型进行充分的雕琢,对其敏捷性进行完善。 由于业务领域内数据的通用性,我们完全可以预训练出一套常用的业务领域专用横向AI模型,例如金融业务领域内的通用自然语言理解模型等。这样我们只需维护、更新这套模型,该领域内的所有智能化相关需求都可以随时地复用该模型库,从而节省大量的任务训练时间。 再进一步,我们甚至可以预先训练一个全领域的横向AI模型库,这样即使我们进入到一个全新的业务领域,基于这个预训练库,也能迅速地打造出领域内通用横向模型,例如计算机视觉领域的ImageNet项目、自然语言处理领域Google推出的BERT技术等都是如此。 因此,横向的基础性AI任务本身能够通过提升模型的通用性、可复用性来敏捷支撑智能化业务需求,一个基本的AI共享服务平台(或者说我们希望构建的AI中台)应该为其提供一个方便的可复用解决方案设计与自动展开结构,完善的模型库、算法库管理系统,以及稳定的模型运行环境等。 对于纵向任务来说,情况就变得比较复杂。纵向任务需求广泛,多为定制化开发,数据多种多样,很难像横向任务那样通过构建通用化模型来响应需求;项目的开发需要专门的人工标注,模型需要反复地训练与调优,这些无一不需要大量时间与精力,最终导致项目大多数时间成本均花费在这些环节之上,造成AI应用项目研发缓慢。 更为重要的是,实际中前台面对业务的瞬息万变,对智能化应用的最大要求不一定是性能的最优化提升,而是快速研发、迅速上线、立即产生效果,在不少情况下甚至可以对性能进行一定的容忍,显然大多数纵向任务的开发速度是无法满足这一需求的,这就产生了前台业务快速推进与后台研发缓慢的激烈矛盾。AI服务如果要中台化,那么我们的AI中台必须能够解决纵向任务研发缓慢这一最大痛点。 纵向任务的这一痛点关键在于其研发过程的复杂性: 在目前大多数纵向任务项目中,由于需求的不同,算法团队每次都会依次经历数据获取、处理、分析、建模、标注,模型训练、调优、验证、部署、监控、更新等一系列环节; 而每个环节内还有自己的复杂性,如数据接入管理、特征工程的开展、标注过程的人工介入、训练调优的反复迭代等; 此外,整个环节还有众多角色的介入,如数据分析师、算法工程师、标注工程师、业务分析师等,对角色的管理同样复杂。 所以针对这类复杂任务问题的研究重点就在于其全生命周期的科学化管理,以及研发流程和每个环节的优化。通过对研发过程中各环节的拆分,我们能够在一定程度上优化任务编排顺序,清楚定位各环节参与角色,通过任务并行与角色协作缩短时间开销;而对于每个环节或局部环节的深入探讨,可以抽象出自动化操作和可复用的流程,进一步提高业务响应速度。 此外,不管横向任务还是纵向任务,两者对AI中台都有一些共同的基本需求。 首先,智能模型对数据的统一访问需求。智能模型在训练阶段需要一定量的训练数据,上线之后需要对接生产数据,以后的监控、更新还需要更多数据,但在实际中每个项目的数据来源一般都各不相同,这就导致研发人员每次都要根据项目情况人工去申请、获取、清洗、预处理数据,十分影响效率。如果能够对接统一的数据服务平台甚至数据中台,那么这一过程将节省下大量时间与精力。 其次,智能模型需要稳定的模型部署、运行平台,还有相应的模型监控系统来时刻追踪模型的性能表现。当然,便捷的模型更新机制也应具备,便于我们根据需要不断更新、升级模型。 再次,智能模型在开发过程中,需要一系列的运算、存储等资源。在大多数企业实体中,很多项目都是项目组自己提供运算资源训练模型,上线时再申请生产资源对环境进行配置、对项目进行部署。这种各自为政的资源管理模式不可避免地会造成资源使用的不协调与浪费,需要一套可靠的资源管理系统对计算资源进行集中管控,并提供弹性化的计算资源调度能力。 综上,我们可以基于前文对两类AI任务的分析,对AI中台究竟要做什么,应具备什么能力进行一下总结。 2.2 AI中台的目标与能力 AI中台致力于解决目前企业智能应用研发过程中存在的响应缓慢、效率低下问题,包括但不限于: “烟囱式”开发,项目成本高、不易集成,过程重复,缺乏能力沉淀; 研发环节繁多,缺少优化、协同、自动化辅助,业务响应缓慢; 模型研发缺乏标准指导,服务接口混乱,难以维护管理; 缺少统一的数据访问渠道,数据获取难、标准不一致,重复的数据预处理与特征工程; 缺少统一的模型运行、监控平台,以及更新、维护机制; 基础资源分散管理,未得到充分利用,造成浪费。 以上问题普遍存在,可以说现在的许多算法研发团队更像是算法外包团队,根据不同业务部门的需求各自构建阵地,逐步攻克目标,过程重复、效率有限。而AI中台则努力提供一个强大的AI能力支持中心,根据业务需要快速提供火力支援,迅速达成目的。所以,AI中台应具备的能力包括: 多层次可复用。对于算法、模型的标准化研发指导,以及可复用服务封装能力; 服务统一化。统一的服务接口规范,支持服务的动态编排组合; 流程角色优化。研发流程拆分优化,清晰的研发角色定义,支持任务并行与角色协作,构建AI产品研发流水线; 自动化迭代。具备研发环节内部、环节之间的自动化迭代、流转功能; 对接数据平台。数据中台或其他基础数据服务对接,迅速接入标准化数据,乃至预处理数据; 运行监控。提供统一的模型运行环境和监控能力,以及模型更新机制; 资源管控。统一资源管理,包括计算资源、存储资源等,支持资源弹性调度。 结合上述能力,我们针对AI中台给出一个探讨性的定义: AI中台是一套完整的智能模型全生命周期管理平台和服务配置体系,基于数据平台服务,通过对智能服务的共享复用、对智能服务研发相关角色进行管理,以及研发流程的标准化、自动化,对前台业务提供个性化智能服务的迅速构建能力支持。 (编辑:ASP站长网) |