分析:电信运营商大数据应用和实践
各位领导、各位嘉宾大家好。非常高兴有这个机会跟大家交流大数据基础和应用发展。刚才宁老师的报告从大数据对人类社会带来的各种各样的影响,从非常高的视角去阐述。我本人虽然研究大数据也有几年了,但是我觉得也是非常受启发。我今天谈得话题是局限于电信运营商,我们如何使用大数据,如何在我们生产过程当中提高生产效率。
主要有几方面跟大家分享:第一,大数据处理技术发展概况; 第二,运营商大数据需求;第三,中国移动在这大数据方面做的事件。
什么是大数据?刚才王主任、宁老师也都提到了。实际上大数据它的最主要特征就是“大”。我感觉现在整个业界对于大数据都没有一个非常的明晰的认识。维基百科收录着IBM最先提出来的解释,大数据有三个特征:首先是规模大,大家也都认同,比如说YouTube、Facebook,每天在数据处理、数据存储量能远超过历史的数据,所以规模大是其基本特征;第二个特征就是种类繁多。除了传统数据库、数据仓库处理的结构化数据以外,其实很多半结构化,甚至是说非结构化的数据在大数据处理当中都变成非常重要的原材料。尤其是像话音、视频、文本等等,这些原来并不是机器所能识别处理的。而在大数据时代这是基本要求;第三个特征就是处理速度要提高。我们都知道,传统上来说分析型系统某种意义上是一个非实时、后台型的系统,但是现在很多应用它实际上要求联机分析、在线分析,对于实时性要求就会有很大提高。比如说Google、百度,它搜索引擎实际上随着互联网上信息更新速度越来越快,比如说门户网站上的信息几分钟可能就更新一次。那我们要求几分钟之内就要找到相关新闻。做搜索引擎的,要重算一遍计算量会非常大的,像Google、百度会有实时索引的系统,可以通过增量的方式在几秒钟之内就把新的索引上线,这就是大数据处理实时性要求高的典型案例。
首先看一下,对于大数据量增长的历史背景。我们理解,数据量之所以有很大的增长会有两个方面的驱动,第一个就是数据产生量是不断增加的;现在网络带宽是成数量级的往上提升,同时我们产生数据,从原来的PC,现在到了手机,当然对物联网传感器也是数据产生一个很重要的来源。此外,像Web2.0等等,包括博客、微博等等这样的一些新技术和模式使每个人甚至说每个传感器都变成了数据产生来源,所以说数据增长量是越来越快的。[page] 第二,信息存储时间要求也越来越长。也就是说,信息对于每个企业来说,它慢慢地变成战略资产,很多企业希望数据永远不删除。那么这就对于数据处理和存储能力带来了很高的要求。比如像中国移动,我们有一些数据必须要求长时间保存,有的是因为企业为了做经营分析、决策支持方面的要求,像美国股市等等有审计要求,还有国家提出来的一些要求。总体上来说,数据保存时间要求越来越长,这要求我们存储数据量会不断增大。
实时性要求方面,传统大规模数据处理是通过数据仓库来实现的。数据仓库发展过程经历了几个阶段,一个阶段它是一个统计系统,从数据仓库里面的数据去发现到底现在已经发生了什么事情,这是一个最基本的基础统计查询功能。第二个阶段就是为什么发生这些事情?这就是一个分析过程。数据动态分析查询,是这么一个过程。第三个阶段,将会发生什么事情?这里就提出了对于数据挖掘的要求。刚才宁主任也对数据挖掘方面做了很多阐述。数据挖掘它能根据我们过去经验导出未来可能会发生什么事情,它是这样一个技术。第四个阶段,需要数据能够快速更新,并且能够快速地了解正在发生什么事情。第五个阶段,要实现我们希望发生什么事情。这个愿望,我们需要通过什么样的举措达成?就是一个事件驱动的概念。
我觉得这几个发展过程同样适用于大数据。大数据在实时性方面的要求,目前应该说这方面要求非常迫切。它的主要实现技术包括几个方面,有一些基于内容的分析。有些公司,像SAP它有一个系统,通过内存实现快速地分析,能够实现秒级结果的呈现。还有一个并行计算的技术,当然这个并行计算还包括图计算、类似于像流计算并行计算的框架,这些都是一些关键技术。还有一个是非结构化数据的管理。国内有一些人在大数据三个“V”基础之上曾经加过一个“V”,就是说大数据价值密度比较低。但我个人不认同这个观点。非结构化数据不是说信息密度低,而是说它有很多信息我们是无法抽取和使用的。这个状况在十几年发展过程当中有了一个很大的变化,我们可以看下,1996年的数据。1996年的时候非结构化数据它的量超过了结构化数据的量。我们可以看到左边的图非结构化数据价值基本接近于零,很少,也是受限于当时的技术手段,当时非结构化数据处理技术并不成熟,所以我们没有办法使用它。2006年,右边的图,这个时候我们的非结构化数据它的价值,这个价值是计算整个全世界市场上,非结构化数据无论从制造、使用以及最终服务,总体的市场价值,它的价值已经是超过了结构化数据。所以说非结构化数据使用对于整个人、机器智能、类信息处理等发展会起到越来越重要的作用。
非结构化数据处理主要的一些技术包括了低成本、海量数据存储管理。非结构化数据量大,所以我们存储成本要低。再一个就是有一些搜索引擎当中,搜索引擎发展过程当中所发展出来的一些技术,例如自然语音处理。处理文本信息涉及到分词,对于自然语言理解等等。这个对非结构化处理有非常重要的作用。现在对于视频、文本等等的处理技术,发展速度也很快。现在有很多系统,比如说苹果提供的SIRI等等里面都涉及了自然语言方面的技术。这就为非结构化数据的积极处理带来了很大方便。还有一点是大规模并行计算进行非结构化数据处理。这个在产业当中包括在我们中国移动生产过程当中也用到了很多,包括对于视频渲染分布式处理等技术。
在大数据领域,现在有一个开源系统大家应该比较熟悉,就是Hadoop,它已经变成了大数据领域的事实标准。Hadoop最开始是由Yahoo团队资助建立起来的,目前全球有很多制造商、互联网公司都在贡献自己的代码,也是作为Hadoop的重要用户。它的拓展性特别好,一个集群可以达到四千个节点。再一个是通用性比较强,可以处理各种数据。支持MapReduce的接口。通过MapReduce基本上可以通过各种各样的编程语言实现很多分布式计算处理的工作。再一个就是系统可靠性非常高,数据通过多副本方式实现。同时支持自动负载均衡等功能。此外易于管理。再一个现在的社区也是非常活跃。目前除了有很多公司是在致力于免费的Hadoop的开源开发工作,还有很多公司他们通过改写、重写Hadoop提供商业产品、商业服务。目前Hadoop产业是越来越壮大和成熟了。
(编辑:ASP站长网) |