2019大数据产业峰会|星环科技季钱飞:流处理的下一阶段——实时智能决策引擎
为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。 会上,来自工业和信息化部的领导,我国众多优秀大数据领域服务商、行业应用客户、研究机构、地方大数据主管机构的领导和专家,将对大数据政策、产业、技术的现状与趋势等内容进行交流探讨。 6月5日,在大数据前沿技术分论坛上,星环信息研发经理季钱飞为我们带来了《流处理的下一阶段:实时智能决策引擎》。 各位来宾、各位领导大家上午好,很高兴今天可以跟大家汇报一下星环科技在流处理产品上的进展和一些探索性的工作。 在开始演讲之前简单做个自我介绍,我在10年-13年期间在英特尔亚太研究院工作,有幸参与发布了业内首个hadoop的发行版本。13年年终的时候我成为星环信息科技的初创团队成员,我们一起在一年半的时间内发布了首个基于spark的OLAP引擎。从14年到现在我一直负责星环的实时处理产品的研发工作。 今天的汇报主要包括以下三个方面:首先跟大家一起回顾一下整个流处理技术的发展历程;然后从星环的视角跟大家一起简单分析一下目前企业级流处理市场现状;最后稍微详细介绍一下我们目前在流处理技术上的探索性的研究和工作。 一、流处理技术的发展历程 在介绍流处理发展历程之前不妨看一下整个流处理技术所适用的场景,根据盖特纳的研究报告表明,流处理适用于实时数据集成、实时数据分析场景。大家用的比较多的是实时ETL和实时数仓,所有的社区、企业研发的产品基本上是为了解决这两种场景而开发的。我们可以从社区和星环两个层面看一下整个流处理组件发展的重要阶段。在社区产品上我从storm开始接触流处理是从事件驱动模型开发的,有比较低的数据延迟,相对来说在复杂分析上功能支持比较有限。下一个是spark的出现,是基于sparkstreaming的计算引擎实现微批处理模型,可以很方便实现多流之间的关联,流和表之间的统计分析等等,因为是微批模型,延迟最多做到百毫秒的级别。接下来就是Flink,首个提出流批一体的计算引擎,充分利用了事件驱动的处理模型,完善了上面分析的复杂功能。当然到现在为止,包括Flink包括spark在延迟功能上做的已经比较好了。 二、星环科技在流处理产品上的发展阶段 星环科技是从2014年开始,开辟了流处理产品线sparkstreaming,发布了企业产品,在交通产品上得到了大规模的部署和推广。但是在这个过程当中我们发现,早期的流处理用户很多时候是用来做一些实时ETL和简单的化疗统计,SQL是做的比较好的。我们15年支持首个基于SQL接入的平台,在市场开拓过程当中发现了微批处理的弊端,延迟实在太高了,并且在spark模型上重新改写了后段的引擎,实现首个融合数据驱动的星环产品,在此基础之上包含支持事件处理等等功能。现在我们还在探索一些流处理发展的趋势。 星环从2014年开始到现在,流处理产品已经发展经历了5年,服务过的客户数量涉及十多个行业,包括公安、交通、金融、能源、运营商等等,已经部署集群数量大概400多个物理集群,大部分是基于我们的产品构建了实时分析平台和平台上离线的分析应用。400多个集群上节点差不多5000个物理节点,集群规模最大的节点数差不多200多个节点。我们在这么多行业、这么多客户的合作,证明了我们流处理产品的可靠性和功能的完善性,也有幸接收了邀请参与制定《分布式流处理平台技术要求与测试方法》,并且5月份顺利通过分布式流处理平台基础能力测试。 通过这几年在企业客户的推广和实施,我们简单总结出来了一个企业对流处理引擎的几个关键指标,包括高性能、易用性、高可用性、安全性、智能化这5个方面。为了实现这5个关键指标,我们对整个slipstream架构从上往下设了三层: 存储层用来对接各种输入输出; 中间计算层包括分布式流处理引擎的5个模块——数据源管理系、输出管理系、任务管理、分布式执行引擎以及计算过程中的存储管理; 第三层是接口层。这里分为两个模块,一个是slipstream的SQL解析层,方便让用户通过ODDC的方式进行流式应用的开发。第二个是流上的挖掘算法解析层,可以在流上跑机器学习的算法。 通过这样一个结构,我们早期可以帮助用户实现一些实时的ETL,判断告警、比对告警、窗口比对等等。大家想问,市面上有这么多开源的流数据框架,也有其他发行版的产品,为什么星环会在几年时间内累积如此多的客户。我觉得是由于星环的产品除了在满足基本功能和性能要求之外,还在以下几方面做了比较多的投入。 1、易用性方面。星环在易用性上可以说做到了极致,早在2015年底2016年初的时候,我们就已经做到对SQL2003完整的支持,通过SQL的支持可以很方便的帮助用户将他们原先在关于数据库上开发的批处理应用场景迁移到流处理平台上,同时降低后期管理运维成本。 2、我们除了SQL之外还支持流上的存储过程,是兼容oracle和DB2两种存储过程与法的,通过这个语法可以实现流上的复杂流程管理。希望通过slipstream帮助用户打通现有公司内的所有数据系统,这样一个工作会覆盖整个实时处理过程中的全链路,包括数据采集接入、中间的指标计算、结果的输出等等。在数据源方面内置支持了大量用户常用的数,包括消息队列、日志系统、用户的其他外部的web service接口,计算过程是接口输入方面通过统一的语言数据管理模块,让用户可以通过统一的SQL接口,以类似于表这样的概念操作常用大数据系统的存储。通过slipstream这样的功能可以很方便的帮助用户构建企业的数据总线。 3、在多租户和资源管控方面做的工作。在多租户管理方面,通过静态元数据的管理模块,其中引入两个抽象,需个用户设立的用户在(P)当中,在(P)级别上提供用户访问权限控制,包括创建、启动、察看这些权限。在资源管理方面,引入一个动态资源管理层,这个模块里面提供了基于资源队列的归拢调度算法,方便用户指定它的优先级,以及它所希望运行在的队列,这样可以实现不同应用之间进行资源隔离和管控。 4、我们从很早就提供了一站式管理开发平台。通过这样一个管理开发平台希望给用户带来两方面的好处,第一是进一步降低用户开发的成本,用户可以通过图形化拖拽方式设立自己的应用。第二是提供了流任务的监控报警功能。我们知道流任务的监控相比传统的批处理来说会复杂很多,因为它可能不是真的出错了才告警通知,而是在整个运行阶段出现一些性能上的波动,也要及时的报给相关的人员,所以这就要求我们底层引擎搜集到更多的性能指标。对于这些升级的指标制定一些特定的规则和日志告警,我们这样一个一站式管理开发平台就是为了方便用户为不同任务定制不同的报警规则所提供的。 三、星环科技在流处理技术发展上的探索 (编辑:ASP站长网) |