2019大数据产业峰会|光大集团刘巍:集团企业数据治理实践经验分享
为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办、大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。 会上,来自工业和信息化部的领导,我国众多优秀大数据领域服务商、行业应用客户、研究机构、地方大数据主管机构的领导和专家,将对大数据政策、产业、技术的现状与趋势等内容进行交流探讨。 6月5日,在数据资产管理分论坛上,中国光大集团高级业务经理刘巍为我们带来了《集团企业数据治理实践经验分享》。 各位下午好,我是来自于光大集团的刘巍,我从2008年开始在光大银行从事数据标准工作,一路走过来,我做数据的工作有将近20年的历史,应该是数据战线上的一个老兵。我今天演讲的题目是《集团企业数据治理实践经验分享》。 光大银行上一路走过来,从数据标准开始到数据质量,再到数据模型,最后上升到数据资产管理的视角,不仅是我们对于数据认知不断深化的过程,也是我个人在其中不断学习的过程。 一、光大银行数据治理历程 大部分企业、银行的数据治理工作都是从数据标准开始的,我们光大银行从2006年开始就在做数据仓库。在做数据仓库过程当中,第一个遇到的问题就是数据标准的不统一,所以从2008年我们就开始做数据标准体系的建设,并同步建设数据字典,大家的历程可能都差不多。做了四年数据标准以后,我们发现只有数据标准是不够的,而且在整个数据标准的执行当中面临了很多的问题。于是在2012年的时候,我们启动了一个数据体系的规划,把数据治理的组织架构,包括数据质量、数据安全与合规、元数据管理、数据治理体系和数据治理问责,并且按照规划去推动实行。 在2013年到2015年之间,我们一直在围绕数据质量以及整个数据治理做评价指数——也叫能力化指数的工作。从2016年和2017年之间,我们做了指标管理。到2016年底的时候,大数据的浪潮就扑面而来,正好我们第一个规划期结束了,这时基于大数据的要求开展了大数据治理的工作。2018年的时候我们又启动了数据安全、数据模型和数据应用,这主要是因为2018年5月份银监会发布了数据治理的实践指引,所以我们将数据应用纳入到数据治理的范畴。 光大银行的数据治理整个历程就是上述这样的,在这里头我想给大家分享几个关键点。 第一个关键点就是我们为什么从数据标准走到了数据的体系规划和数据质量的转折点。大家也知道在做数据标准时,建很多系统,要做标准的落地。我们落地的时候面临了非常多的困难,找不到应用点,如果单纯的为了数据标准的执行,说实话是一个非常伤筋动骨的事情。我有一个最经典的案例,当时做了一个证件类型的标准化执行,整整耗时一年,改了二十多个系统。这个效率是非常低的,这样如何去推动数据标准的执行和落地,如何去推动整个数据治理的工作?当时银监会出台了相关指引和要求,同时我们自身也面临很多标准质量的要求,借此我们构建了以提升数据质量为目标的整体数据治理的方案,往这个方向走。 第二个关键点是整个的数据质量和数据标注到数据模型的转折,这个我估计大家也有共鸣。数据管理有很多的组件,包括数据质量、数据标准、元数据、数据安全、数据合规、数据架构和数据模型等等,都是管理,管理什么呢?大家肯定说管理数据,那数据是什么?这其实一直是萦绕在我心里的一个问题。我们如何去把数据给大家呈现出来? 2014年,我发表了一篇文章叫作《数据管理的核心对象》,把核心对象这个名词提出来,我心里清楚得很,是数据模型。但因为当时我们整个数据架构与模型还在规划处,没在数据这一部分,所以其实当时并没有提出“模型”这个词。自从银监会的指引出来以后,我们正式启动了企业数据模型的项目,做数据资产的管理以及盘点的工作。所以我们整个历程中也不断地演变,不断地推进,逐步地从标准开始,以解决数据质量为目标,走向了整体数据资产管理的方向。 在这个过程当中,我们一直秉承着一个思路,就是“以应用驱动,以用为先”。庞大的体系架构可能是需要花费大量的资源和人力投入,我们的数据治理之路就是在现有条件下,能够去用我们的能力,一步步地前进。 企业级数据模型的框架 下面简单介绍一下企业级数据模型的框架,企业级数据模型是数据资产管理的核心,我刚才提到。数据是什么、它长什么样?我们当时构建了整个的数据模型框架,它们会有一些业务的分类,分类项下会有实体和属性。这个其实仅仅给我们提供了一些目录,同时分类项下还会有物理的属性,就是这些数据都存在哪儿,也会有数据的源头属性,就是数据都从哪儿来,也会有一些管理的属性,就是说这些数据都归属于哪个部门,它是不是标准的,是由谁生产的,谁在使用,还会有一些质量的属性。实际上整个数据的管理就围绕这个模型来去构建,相当于有一个数据的实体或者是一个数据的对象,这样我们所有的管理要素以及本身的属性的要素都会在上面构建。有了这些要素以后,把这些数据都填全了,我们就可以去找数据、看数据、管数据、用数据。我们经常谈到的数据资产地图、数据的血缘分析和数据的自动调用,可能都是基于这样的一个整体的企业级数据模型构建的。真正的企业级数据模型把所有的内容在管理活动中填进去以后,实际上落下来的就是我们的元数据。 在整个企业级数据模型构建的方法当中,所谓资产就是要盘点。盘点有很多种,其实是从整个数据的产生的源头就在盘点,并且从生产阶段一直到后台的加工阶段进行全流程的管控。之前我们调研建行,他们也是结合新一代的建设,进行了全行的企业级模型的构建。但是对于我们这种中等的股份制银行来讲,这种难度是很大的,除非有一个非常大的契机,领导说你们要另起炉灶,可能还有这样的机会。据我们当时了解,有些银行就从下而上,我现在仓库里有什么就全部都算作我的数据资产,再逐步地看用的情况去整理、去完善。我们当时希望走一条相对折衷的路,因为怕上面没有一个整体的框架,下面一大堆的梳理没有方法,就可能会有问题,所以我们当时采取了自下而上和自上而下相结合的方法。 我们是从业务视角构建的框架,我们的最终理想目标是这个资产地图面向我们的业务人员,能用他们看得懂的语言、能看明白的方法找到这些数据。 (编辑:ASP站长网) |