荣新IT培训中心
全国咨询热线:400-1335-066
您现在的位置:首页>媒体报道 > 正文

大数据十大误区知多少?

时间:2017-10-18 13:29:38 来源:荣新IT教育培训 作者:荣新科技

这两天收到不少关于大数据的问题,发现很多同学和朋友对大数据有着很深的误解,总结了几点,下面一起来分享下吧,希望大家参加大数据培训的时候学以致用。

大数据十大误区知多少?


1.算法是万无一失的预言家

不久前, 谷歌流感趋向项目 被大肆炒作,宣称比美国疾病控制中心和其他安康信息效劳机构更快、更精确地预测流感疫情的发作地。正如《纽约客》的Michele Nijhuis 在 2017年6月3日的文章 中所写的那样, 人们以为与流感有关词语的搜索会精确地预测疫情行将迸发的地域。事实上,简单地绘制本地温度是一个更精确的预测办法。

谷歌的流感预测算法堕入了一个常见的大数据圈套——它产生了无意义的相关性,比方将高中篮球竞赛和流感迸发联络起来,由于两者都发作在冬季。当数据发掘在一组海量数据上运转时,它更可能发现具有统计意义而非实践意义的信息之间的关系。一个例子是将缅因州的离婚率与美国人均人造黄油的消费量挂钩:虽然没有任何理想意义,但这两个数字之间的确存在“统计上显著”的关系。

2.你不能在虚拟化根底架构上运转大数据应用

大约10年前,当”大数据”初次呈现在人们眼前时,它就是Apache hadoop的代名词。就像VMware的Justin Murray在 2017年5月12日的文章 中所写的,大数据这一术语如今包括一系列技术,从NoSQL(MongoDB,Apache Cassandra)到Apache Spark。

此前,批判者们质疑Hadoop在虚拟机上的性能,但Murray指出,Hadoop在虚拟机上的性能与物理机相当,而且它能更有效天时用集群资源。Murray还炮轰了一种误解,即以为虚拟机的根本特性需求存储区域网络(SAN)。实践上,供给商们经常引荐直接衔接存储,这提供了更好的性能和更低的本钱。

3.机器学习是人工智能的同义词

一个辨认大量数据中形式的算法和一个可以依据数据形式得出逻辑结论的办法之间的差距更像是一个鸿沟。ITProPortal 的Vineet Jain在 2017年5月26日的文章 中写道,机器学习运用统计解释来生成预测模型。这是算法背后的技术,它能够依据一个人过去的购置记载来预测他可能购置什么,或者依据他们的听歌历史来预测他们喜欢的音乐。

固然这些算法很聪明,但它们远远不能到达人工智能的目的,即复制人类的决策过程。基于统计的预测缺乏人类的推理、判别和想象力。从这个意义上说,机器学习可能被以为是真正AI的必要先导。即便是迄今为止最复杂的AI 系统,比方 IBM沃森 ,也无法提供人类数据科学家所提供的大数据的洞察力。

4.大多数大数据项目至少完成了一半的目的

IT经理们晓得没有数据剖析项目是100%胜利的。当这些项目触及大数据时,胜利率就会直线降落,NewVantage Partners最近的调查结果显现了这一点。在过去的五年中,95%的企业指导人表示,他们的公司参与了一个大数据项目,但只要48.4%的项目获得了”可权衡的结果”。

NewVantage Partners的大数据执行调查显现, 只要不到一半的大数据项目完成了目的,而 “文化”变化是最难完成的。材料来源: Data Informed 。

事实上,依据2016年10月发布的 Gartner的研讨结果 ,大数据项目很少能跨过实验阶段。Gartner的调查发现,只要15%的大数据完成被部署到消费中,与去年调查报告的14%的胜利率相对持平。

5.大数据的增长将减少对数据工程师的需求

假如你公司大数据方案的目的是尽量减少对数据科学家的需求,你可能会得到令人不快的惊喜。 2017 Robert Half 技术薪资指南 指出, 数据工程师的年薪均匀跃升到13万美圆和19.6万美圆之间, 而数据科学家的薪资目前均匀在11.6万美圆和16.3万美圆之间, 而商业情报剖析员的薪资目前均匀在11.8万美圆到13.875万美圆之间。

6.员工和一线经理将张开双臂拥抱大数据

NewVantage Partners的调查发现,85.5%的公司都努力于发明一个“数据驱动的文化”。但是,新的数据方案的整体胜利率仅为37.1%。这些公司最常提到的三个障碍是缺乏组织分歧性(42.6%),缺乏中层管理人员的采用和了解(41%),以及业务阻力或缺乏了解(41%)。

7. 大数据就是‘很多数据’

大数据从其中心来讲,它描绘了却构化或非构造化数据如何分离社交媒体剖析,物联网的数据和其他外部来源,来讲述一个”更大的故事”。该故事可能是一个组织运营的宏观描绘,或者是无法用传统的剖析办法捕获的大局观。从情报搜集的角度来看,其所触及的数据的大小是微乎其微的。

8.大数据必需十分洁净

在商业剖析的世界里,没有“太快”之类的东西。相反,在IT世界里,没有“进渣滓,出金子”这样的东西,你的数据有多洁净?一种办法是运转你的剖析应用程序,它能够辨认数据集中的弱点。一旦这些弱点得到处理,再次运转剖析以突出 “清算过的” 区域。

9.一切人类剖析人员会被机器算法取代

数据科学家的倡议并不总是被前线的业务经理们执行。行业高管Arijit Sengupta在 TechRepublic 的一篇文章中指出,这些倡议常常比科学项目更难施行。但是,过火依赖机器学习算法也同样具有应战性。Sengupta说,机器算法通知你该怎样做,但它们没有解释你为什么要这么做。这使得很难将数据剖析与公司战略规划的其他局部分离起来。

10.数据湖是必需的

据丰田研讨所数据科学家Jim Adler说,巨量存储库,一些IT经理们想象用它来存储大量构造化和非构造化数据,基本就不存在。企业机构不会不加辨别地将一切数据寄存到一个共享池中。Adler说,这些数据是 “精心规划”的,存储于独立的部门数据库中,鼓舞”专注的专业学问”。这是完成合规和其他管理请求所需的透明度和问责制的独一途径。

未来是属于大数据的,这点毋庸置疑,但是大数据不代表彻底的颠覆,很多工作岗位依然需要很多传统的工作方式去完成,好了,今天的分享就到这里,有疑问的同学欢迎继续访问荣新科技官网,这里有关于IT培训的一切知识。