针对大数据的五大谬见
近期,有关大数据的新闻占据着各大媒体科技报道的主要版面。但是,有许多文章似乎华而不实,一些报道鼓吹大数据是能够解决一切问题的解决方案,如它能进行入侵检测、预防诈骗、治疗癌症,甚至还能设置最优的产品价格。
但是,业界定义的大数据是指迅速收集的、各种各样的、大量的数据集合,而不是能够处理一切问题的万能解决方案。在现实中,如果一些企业偏信这些与大数据相关的谬见,那么这些企业很可能会偏离正轨,走向错误的发展方向,浪费大量的时间和金钱,丧失其在市场上有利的竞争地位,还可能损害企业的声誉。
此篇文章就讲述了业界常出现的有关大数据五大谬见。
1. 只有数据科学家才能处理大数据
事实上,在处理大数据时,光靠数据科学家是远远不够的。
“如果你不能首先确定到底需要什么样的信息的话,那么单凭数据科学家自己是不可能成功地从大数据中提取有用信息的”,宾夕法尼亚大学医院(Penn Medicine)数据分析部门高级主管Pat Farrell说:“你还需要熟悉业界动态、掌握相关领域知识的人才,他们知道问题的所在,也了解什么样的解决方案对于你所从事的领域最有价值。”
例如,在宾夕法尼亚大学医院有两个系统,一个是医疗系统,一个是医学院系统。长期以来,医疗系统通常从一个数据仓库中收集临床医疗数据。与此同时,在医学院系统中,出现了一个新的技术,可以实现对人类基金组的排序,并产生了大量的数据。
Farrell说:“我们知道这些数据一定存在着某些价值,而我们最终也有了能够获取这些价值的计算能力。我们将专业的医疗知识与数据分析技术相结合,为预测医疗开拓了一片新的、更广阔的领域。”
2. 数据越大,价值越大
收集数据,并把它储存起来再登记入册,这会花费许多时间、占用很多资源。如果企业或机构在收集数据时不加选择、任意地收集大量数据,那么很可能会造成大量的资源浪费,而这些资源完全可以用到更有价值的项目上去。
Farrell建议企业在收集数据之前一定要有一个具体的目标,或关键性能指标,要明确自己需要什么样的数据,再去有目的地收集数据。
Farrell说:“你需要从你收集的数据中提取有价值的信息,但这并不代表你收集的数据越多,你所获得的价值越大。”
3. 大数据用于大企业
大企业或许会有更多的内部数据来源,他们可以利用这些数据获取对自身企业发展有价值的东西。但这并不代表大数据只用于大企业,小企业也能够收集来自社交媒体平台、政府机构和数据供应商的数据,并从这些数据中提取有利信息。
戴尔软件信息管理解决方案部门的产品管理高级总监Darin Bartik说:“对于企业来说,不管它的规模有多大,利用数据分析制定的决策总比单纯依靠直觉或第六感制定的决策要好得多,且更加可靠。”
小企业虽然不像大企业那样经常利用数据分析来制定决策,但是当这些小企业真正这样做的时候,它们会使公司走向快速、正确的发展轨道。
Darin Bartik说:“小企业可以利用其最佳实践,进一步推动数据分析决策在企业中的发展,以此赶超或者胜过那些强大的竞争对手。”
4. 收集数据后不及时整理分类
位于美国旧金山的云计算商业智能供应商Birst的首席执行官Brad Peters表示,虽然数据存储的成本越来越低,但它并不是免费的。然而,对于许多大公司来说,它们对于数据欲望的增长速度要比数据存储成本降低的速度快得多。
许多企业往往在收集完数据之后,并不迅速处理这些数据,造成数据存储成本增加。Brad Peters说:“我发现很多大的企业或机构收集了一大堆数据之后却不及时处理这些数据,导致他们在这些数据上的开支逐渐增大,而他们也并没有从这些数据中获取任何价值。”
事实上,企业中的一些数据集已经开始造成了企业的收益递减。这种现象就像通过分析选民数据信息来预测选举结果一样,在预测过程中,你需要一定数量的选民作为样本,但是如果样本数量超过一个临界点之后,无论增加多少选民,对于预测结果不会有任何太大的影响。也就是说,样本数量过多,所花费的成本也就越多,但对于目标没有任何实质性的价值。
“数据冗余的话,企业支出的不仅仅是存储成本,还会面临许多其他的问题”, Recommind公司信息治理和大数据管理全球主管Dean Gonsowski说。比如,如果数据泄露的话,那么公司也会承担相应的损失。Recommind是一家位于美国旧金山的专注于非结构化数据分析的公司。
最终,数据越多,那么分类整理数据所需要的时间也就越多。Dean Gonsowski说:“当数据仓库的规模达到数十亿条记录时,那么光是检索数据就需要花上几个小时,甚至是几个星期。这时候,这些信息非但不会给企业带来商业价值,反而会阻碍企业系统的运转,因为这些系统根本不能处理这么大信息量。”
5. 所有数据都是一样的
美国佛吉尼亚州曾收集过在过去20年里学生的注册信息、奖学金,以及学位授予情况的数据,但这并不意味着20年前收集的与之存储在同一个数据域里的数据就一定是相同的数据。
(编辑:ASP站长网) |