2019大数据产业峰会| Datablau王琤:EDW2019-国际数据管理最新趋势
为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办、大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。 会上,来自工业和信息化部的领导,我国众多优秀大数据领域服务商、行业应用客户、研究机构、地方大数据主管机构的领导和专家,将对大数据政策、产业、技术的现状与趋势等内容进行交流探讨。 6月5日,在数据资产管理分论坛上,Datablau创始人&CEO王琤为我们带来了主题为《EDW2019-国际数据管理最新趋势》的演讲。 谢谢大家,今天我的演讲是跟大家分享EDW2019-国际数据管理最新的趋势。之前信通院会议负责人和我就这次演讲内容有一个深度讨论。我说看看能不能把国际上的最新趋势、行业里面最新的方向,在会上讲一讲,在这里大家互相学习。 一、EDW简介 我以前是CA ERwin全球研发负责人,做了十几年的全球研发。EDW大会全称Enterprise Data World企业数据世界,是DAMA International国际数据管理协会的全球年会,DAMA协会于1988年就成立了。EDW大会是商业世界中最全面的关于数据和信息管理的供应商中立教育与交流活动,至今已举办23届。这个会我参加了蛮多年,每年都有一千多名与会者,就很多主题进行讨论。那边也给我留了一个作业,看看未来能不能把大会搞成一个中国的或者说东方的大会。这是每年会议的议程,如数据建模、新型数据库怎样做管理。去年在EDW上我也做了围绕“微众银行的数据治理创新的场景”的演讲分享,2019年EDW将在波士顿举行。 二、元数据和数据目录 今天的内容分了三块,第一块是元数据和数据目录,这是比较新的趋势;第二块是数据架构;第三块是数据建模。 第一块元数据与数据目录来自于这张片子,这块其实是IBM全球CDO办公室在EDW上做的分享。这是IBM Global Chief Data办公室发表的论文,第一是说他要做成全球数字化转型的领导者。IBM的分支机构很多,业态也非常多。他的信仰是说有一个企业级的数据是可信的,希望这个数据变成一个AI的骨架、AI的基座,开发整个企业级的数据战略,企业级的治理系统,中心化的数据源,为未来AI做一个基座,包括深度的数据分析。相当于CDO办公室跟其他业务部门是合作伙伴的关系。当前面临的挑战是业务跟技术花费太多的时间维护元数据,其实架构有了,内容也很丰富,运维变成了非常困难的事情。然后是碎片化,变化很频繁,怎样把这些碎片化的环境变成一些自动化的场景。最后是怎样把运维化的方式变得更自动化。 我在国内接触了方方面面各种类型的企业,金融行业、制作业、能源行业等。当前比较头部的企业,建行以及股份制银行等做数据资产已经有近十年了。他们当前的面临的场景跟IBM很像,需要应对几方面的挑战:数据资产管理运维如何自动化?新数据源接入频繁,如何自动盘点?数据需求强烈又变化频繁如何满足?新增系统数据如何管控?这些都是企业做了一段时间数据治理后,面临的变化和挑战。 IBM的解决方案是把元数据这层加强,包括虚拟化元数据。咱们今天在座的有一些是刚开始做数据治理,有一些可能做蛮长时间了。我觉得要以一个开放思路看看西方比较先进的数据治理理念,他们现在已经做了“分久必合、合久必分”,很多元数据系统把数据管理变成分片式,变成一个烟囱。自然语言的查询,相关的东西是不是能自动盘点,应该是一个open source,元数据要开放,不是人看这个东西,是机器看这个东西,所以要做成open sourc+微服务的系统。系统应该是多级部署,是一整套系统,不是不同的分支机构、不同的区域自己搞自己的一套系统。 在国内比较少业务术语,什么事都是从业务术语切进来的。业务术语跟一些标准会比较像,国内跟西方的叫法不太一样,不同的角色其实都是从业务术语切进来,看到的东西是不同的。不只是业务术语,刚才其实也谈到了行业模型,把行业模型跟业务术语相结合,行业模型本身就是业务术语组装成的。业务人员来看这些的时候不只是看一条条的分类,要看在这个行业模型里所处的位置。因为它其实都是业务对象,这些业务对象跟别的业务对象的关联关系,这样帮他理解业务数据。为什么搞行业模型?行业模型就是给一个核心的语境。 这是我一些我自己的理解,把元数据抽取进来,还有一些输入和数据模型,会形成元数据的信息库。上面是元数据吸收了很多信息,数据管理团队核心是要维护数据标准、维护数据运维,包括数据目录要开放给数据消费者,让数据消费者通过数据目录实现数据服务,数据管理团队通过业务数据库考核相关的报表。元数据跟数据目录的关系,一个是面向IT的,一个是面向业务的。 三、数据框架与数据湖 国内跟西方有很大的差距,西方行业里数据湖架构讲了很多,国内目前行业内讲得还是比较少。国内大部分都是把大数据平台当储存来用的场景,数据湖、数据海、数据池塘等等很多的概念都包含在大数据平台里头。报表里对应的数据进来,更泛的数据还没想好怎么用的时候,第一个横向的维度就是用户,传统的是做数据相关的分析,更多、更泛的人是数据探索的人、数据科学家,他能不能进来?这是当前数据湖跟数据仓的区别。现在国内因为所谓的更便宜、更快,所以用大数据平台代替数据仓,更多的是做服务。国内还是把数据湖当数据仓库的形式,一些自服务把数据开放出来。当前的用户场景,如果说传统的数据集市是一瓶矿泉水,干净、包装完整,使用方便。而数据湖则是一个巨大的天然湖,各种用户可以汲取湖水,探索式潜水,提取样本。在数据湖中的数据既有原始格式的也有加工过的,供各种用户群体来使用。有的客户说我希望有干净的矿泉水,直接把数据拿过来就能用。有的客户说我希望要一些更原始的数据,还有的说时间太长了等不了了,我就直接做数据沙盒数据分析也好。 我从三年前就看到西方数据湖的架构就是这么做的,分成四个区:原始区、生产区、开发区、敏感区,这个架构在西方基本上也是公认的。有什么区别?在原始区对应的角色是不一样的,原始区对应的是数据工程师,还是偏纯IT的人,他在这做的是数据加工和清洗。之后这个区域的东西会分成两部分,一部分扔到敏感区,这块是严格的防护控制,另一部分加工完的数据会扔到开发区,就是让大家做数据分析。 (编辑:ASP站长网) |