2019大数据产业峰会|东方金信付威:海盒数据中台SDME
为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办、大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。 会上,来自工业和信息化部的领导,我国众多优秀大数据领域服务商、行业应用客户、研究机构、地方大数据主管机构的领导和专家,将对大数据政策、产业、技术的现状与趋势等内容进行交流探讨。 6月5日,在大数据前沿技术分论坛上,东方金信数据研究院院长付威为我们带来了关于海盒数据中台SDME的介绍。 大家我好,我是来自东方金信的付威,今天给大家简单介绍一下数据中台如何快速支持业务场景。昨天的分享会上给大家说了一下,讨论了数据中台如何做,其实没有很明确的说法,我这里介绍一下数据中台在我们实践过程中的一些思路,抛砖引玉。 首先数据中台的概念是起源于互联网领域的,明确说是起源于阿里。以前不叫数据中台,最早叫中台,中台又分业务、数据中台。我在传统互联网行业做过很多年,我非常理解为什么互联网领域提出数据中台概念,实际上它最主要的需求是快速,快速的支持业务模式。我们传统的话做数仓也好、大数据也好,做一个项目,比如在大数据平台上做一个应用,通常要三个月,要做ECM或者风控要5个月的时间,这在互联网行业是根本不可以接受的。可能8个月钱都烧完了公司要关门了,它的要求是一定要快。 第二它的生命周期是非常短的。我们做互联网行业做的时候应用很简单,也可能这个应用是即用即抛型的,拿来用,可能半年之后就不会用这个了。第二应用的生命周期越来越短。 第三大数据技术产品越来越多,大数据团队的人也越来越多,很难协调一个产品的开发,协调资源是非常多的。所以企业对数据中台的需求我们总结出来3点: 1、要快速构建应用; 2、减少人力成本; 3、数据应用效能是不变的。 在中台上举一个例子。在二战的战争前线人是非常多的,都是几万人作战,但是现在的作战前线是人可能很少的小分队,但是它的作战效能是不变的,因为它能呼叫远程空中火力包括各种支援,它的效能是不变的,这就是数据中台产生的背景。 东方金信基于这样的背景,包括各行各业的经验总结出来数据中台的定义是这样的:首先数据中台是必须建立在标准的大数据基础环境之上的,同时为业务应用提供数据解决方案的一系列服务与组件的集合,以及与开发相配合的组织架构和流程。 在这里我们把数据中台和数据后台分开了,我们说的更多的包括数据开发、运维、建模,我们常见的清洗也好,我们认为这是数据后台的工作,这个人是非常多的,我们把这种标准大数据的规划建设、统一的存储建模开发运维统称为大数据后台。大数据中台干什么?有两个:一是服务组件,第二有组织流程。通过服务组件、组织流程快速支持前台作用。前台只有一个前台,这一个前台上是由业务前台和数据中台和业务中台组合而成的。在我们这个理论想法的基础之上,我们规划出了整个东方金信大数据的产品架构。今天重点不是介绍东方金信大数据的产品架构,但是这里简单介绍一下。 下面有个云数据的容器平台,未来用安全云容器,上面有海盒大数据基础的存储平台,包括海盒大数据和海盒流计算引擎,包括数据库、数仓数据库、图数据库和对象存储,一个企业至少是五六个以上的存储来解决大数据的存储。在这之上是海盒数据资产管理平台包括行业数据库和数据资源目录,这个数据资源目录和大数据有时候会混淆,这个通常在政府机关用的比较多,因为它的委办局特别多,数据差异性特别大,所以会有资源目录的场景。还有元数据、数据质量、数据标准、数据安全、数据周期和数据产品工厂,这会在另外一个会场中介绍这几个产品。这里重点提一下关于元数据,元数据的重点是影响分析,里面很重要的问题是影响分析爆炸,如果做三层分析一下子几万张表都会受影响,我们在这里已经把这个问题解决了,精细化,在这里就不细谈了。 左边是海盒同步平台包括共享数据交换和任务项目处理,这上面是海盒大数据分析平台,包括分析套件和全终端的BI套件,在此之上还有海盒人工智能平台,包括自然语言处理、搜索引擎、图分析工具等等。这些下面说的没有圈出来的都认为是数据后台要管理的事情包括存储、管理、同步、开发、加工等等这些功能,这些对外输出是称之为海盒数据中台。上面有两个组件介绍一下,一个叫做数据服务,还有一个数据应用构建器。这两个组件会构建出数据中台的组件,包括自动分析、标签管理、位置服务引擎、外部数据管理。这个外部数据管理可能一些企业都会用到,比如爬虫、外部数据收集、企业上传数据等等。还有指标管理、企业和政府的知识图谱,还有一个引擎。这就是数据中台在整个海盒大数据产品架构中的背景。 接下来重点介绍其中几个组件,介绍最重要的两个组件是数据服务和应用构建器。通过这两个组件可以快速的完成前排应用的快速构建。我们说底层数据刚才提到大数据平台上最少得几万张表,多的几十万张表很正常,上百万的字段,下游的应用是没法用的,他会问表存在哪儿、怎么存的、怎么取,下游的程序员思路是开发的思路和数据人员的思路不太一致,还要解释。这时候我们把下面的数据服务封装成标准的API接口,现在都是微服务的架构。在微服务架构中有个特点,是在这里自己研发了一个叫SchemaQL的语言,因为如果基于几万张表都做接口的话会做好多接口,我们把基于企业级模型做了一个SchemaQL语言,这样用起来就非常简单了,接口并不多,上面直接访问就可以了,这是数据服务的应用; 还有一个是数据应用构建器,是右下角的工具,通过web搭一个应用可以很简单,跟传统的不一样。传统是搭前端,这上面每个组件,连服务接口带前端组织,一个身份验证组件一个流程组织,拖过来就可以了。而且这个组件是可以组装的,一个风控组件是好几个技术组件搭起来的,现在审批组件都搭好了,接口输入输出都可以了,只要把用户ID传进去,其他都不用管了,这样简单的应用构建器很多,我们搭了一个简单的应用支持业务员到前线看一下,看一下这里面有什么,这里面把身份验证组件拿过来,业务信息一匹配,一个应用很快的做出来了,小时级就把应用构建出来了。同时这个应用也不需要部署到一个应用服务器上直接在线发布就可以了。当然它的应用构建器和数据服务是数据中台的核心。 (编辑:ASP站长网) |