2019大数据产业峰会|联通大数据李大中:联通大规模数据集群治理实践
为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。 会上,来自工业和信息化部的领导,我国众多优秀大数据领域服务商、行业应用客户、研究机构、地方大数据主管机构的领导和专家,将对大数据政策、产业、技术的现状与趋势等内容进行交流探讨。 6月5日,在大数据前沿技术分论坛上,联通大数据公司高级技术总监李大中为我们介绍了联通大规模数据集群治理实践。 首先十分荣幸受大会邀请做一个我们自己运营商的集群治理方面的分享。在此之前我想谈谈自己的感想,运营商的数据量确实非常大,实时性要求非常高,从采集、处理加工等每个环节都要投入大量的人力物力来做,这个过程当中产生了很多以前在中小型规模和集群上遇不到的问题。数据量大了以后,全都是问题。 我先简单介绍一下联通大数据公司,联通大数据是中国联通集团旗下的全资子公司,也是三大运营商里面唯一成立的专业化大数据公司。我们联通大数据公司有两个功能,第一负责经营和运营中国联通全量用户数据的大数据能力的建设——这是联通集团赋予我们大数据公司的职能。另外在大数据领域对外的投资和合作也是由联通大数据公司来负责,所以大家今后要有这方面的合作需求可以和联通大数据公司合作。联通大数据有几大战略:一是集中平台——因为整个联通数据是集中的,联通大数据每天在处理全国的实时数据;第二我们也提供数据合作,这是基于我们的海量数据;第三是资本合作。 联通大数据的产品线非常多,建立了基础、标准应用和平台及行业解决方案三层产品结构。在标准产品里,我们的风控做的特别好。除此之外产品还包括数赢洞察、智慧足迹、大数据平台等。我们对外提供行业解决方案有旅游方面的大数据产品,有游前洞察、游中监测、游后服务、全程大数据,产品SaaS化。此外还有政务大数据、公共安全大数据,是偏向于社会治理方向的。 看一下联通拥有的数据资产。联通大数据平台存储容量100PB,Hadoop集群超过6000个节点,日新增数据超过140TB,上网数据日处理10000亿条,处理的互联网数据量达到万亿级,这个数据量都是定时或者实时机制汇聚到我们这里。联通大数据模型有2000多个,数据库200多个,数据表1.6万,字段50万+,分区数2000万,文件数2亿+。看到这些数字,做大数据的人都会非常兴奋,我们也一样,但是在兴奋过后也有很多疑惑或者叫做走过很多坑,为什么?因为这么海量的数据肯定在数据治理上要付出巨大的代价。 一、大规模数据集群治理 我重新定义了一下符合大数据公司自己的资产管理体系。我们也参考了业界好多CMI的数据管理体系等,但是我觉得符合大数据公司的管理体系还是图中这个,这一体系经过实践取得了明显的效果。首先我们的数据资产管理体系建设是由三块组成的:左侧第一块是数据治理框架,我们起了个称呼叫“梳整促”;中间第二部分叫“巡山”,以集群治理为主,最右侧第三块是价值经营,这三块连起来就是联通大数据公司的数据资产管理体系建设。 中间这块为什么叫“巡山”?我们把一个个集群都看作摆在我们面前的一座座大山,山上面有峰顶有风景有溪水有河流什么都有,但是得进去把它梳理成符合你需要的样子,所以基于这块今天重点讲的是基于全域的数据集群治理。 如图这是我们在经过一段时间发展以后系统层面出现的问题,这种问题不是说突然出现的,是慢慢慢慢反映出来的,最直接的反映是在集群的处理能力和处理效率的下降。从底层洞察这块可以直观看到,集群的文件数量太多,小文件占比高,文件数量多到单集群1000节点,上面的文件数大概将近8000万文件。这些不是一下子大规模爆发,是慢慢慢慢地积累起来,越来越不舒服,最后造成的结果是集群RPC负载过高,集群垃圾文件过多,影响集群稳定。在算力层面,集群虽然用了一些调度策略来区隔资源分配,但是由于集群不稳定,集群处理的效率降低,整体负载高,耗资源大。还有冗余计算,异常作业的检测。 在对最上层数据管理进行直接深入剖析和分析后发现,我们的元数据不够自动化、不够实时化,过多的依赖于人的维护或者一个流程,如果有人不遵循这个流程,元素管理就失真了。我们打破了这个思路,不能靠管理或者自上而下的规定。再有就是没有完整全域数据血缘追溯——这个血缘追溯是自动化的,无法定义工作的范围或者一些面子。 然后我们制定了大规模数据集群治理的目标,首要任务是解决当前整个集群的“亚健康”状态,这种亚健康状态不是出现在某一个集群里面,而是所有的集群里面。长期的任务是什么?简单点说就是“保持健康”,大家知道治病容易但是如果要长期保持健康状态是很难,因此后面我们有一系列的措施保持这种健康的状态。 这是数据治理、集群治理推进的方法论。从这个方法论上我们追求两点: 1、 由小而美的精益发现价值。一开始不会做宏观的自上而下的策略,以述说集群怎么优化、业务怎么架构。我们的步骤是首先从问发现题开始,找到问题。比方说今天集群里面的某个产品的模型,任务比平常增加了50%或者60%,一些小头部的体量,找完点以后代面,这个集群执行的慢到底因为作业提交的时候有问题,还是调度的时候有问题,还是数据倾斜的时候有问题,还是别的地方有问题。然后制定解决策略问题,解决完这一点以后,一定要落一个相应监督的点,这个监督的点是在今后过程中实时监控的。 2、 敏捷交付价值。我们希望把这个东西最后包装成一个产品交付,交付过程中采用敏捷式的方式。因为这套体系贯穿的是整个公司的生产组织体系,从底层数据的采集一直到数据的加工,从产品线到研发线,整个参与所有项目的有300多人,这种模式没有办法用固定组织模式采用固定的方式交付,更多是一种虚拟的方式、协同的方式、敏捷的方式交付,更多是跨组织的协同。 二、大规模数据流程治理中遇到的问题 接下来把在我们治理过程中遇到的几个点跟大家简单介绍一下。 (编辑:ASP站长网) |