荣新IT培训中心
全国咨询热线:400-1335-066
您现在的位置:首页>技术文章 > 正文

初识Hadoop-《Hadoop权威指南》

时间:2017-07-28 12:23:08 来源:荣新IT教育培训 作者:荣新科技
初识Hadoop
  【图书连载】古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应试着结合使用更多计算机系统。
  ——格蕾斯·霍珀
  数据!数据!
   我们生活在数据时代!很难估计全球以电子方式存储的数据总量有多少,但IDC的一项预测曾指出,“数字宇宙”(digital universe) 项目统计得出,2006年的数据总量为0.18 ZB,并预测在2011年,数据量将达到1.8 ZB。[1] 1 ZB 等于1021 字节,或等于1000 EB,1 000 000 PB,或是大家更熟悉的10亿TB 的数据!这相当于世界上每人一个磁盘驱动器所能容纳数据的数量级。
  数据“洪流”有很多来源。以下面列出的部分为例。[2]
  纽约证券交易所每天产生1 TB 的交易数据。
  Facebook存储着约100 亿张照片,约1 PB 存储容量。
  Ancestry.com,一个家谱网站,存储着2.5 PB 数据。
  The Internet Archive(互联网档案馆)存储着约2 PB 的数据,并以每月至少
  20 TB的速度增长。
   瑞士日内瓦附近的大型强子对撞机每年产生约15 PB 的数据。
  此外还有大量数据。但是你可能会想它对自己有何影响。大部分数据严密保存(locked up)在一些大型互联网公司(如搜索引擎公司),或科学机构,或金融机构,难道不是吗?难道所谓的“大数据”的出现会影响到较小的组织或个人?
   我认为是这样的。以照片为例,我妻子的祖父是一个狂热的摄影爱好者。成年之后,他经常拍照片。整个照片集,包括普通胶片、幻灯片、35 mm胶片,在扫描成高解析度图片之后,大约有10 GB。相比之下,2008年我家用数码相机拍摄的 照片就有5 GB。我家照片数据的生成速度是我妻子祖父的35 倍!并且,这个速度还在不断增加,因为拍摄照片变得越来越容易了。
  更一般的情况是, 个人数据的产生量正在快速地增长。微软研究院的MyLifeBits项目(http://research.microsoft.com/en-us /projects/mylifebits/default.aspx)显示,在不久的将来,将普及个人信息档案。MyLifeBits是这样的一个实 验:获取并存储个人与外界的联系情况(电话、邮件和文件),以供后期访问。收集的数据中包括每分钟拍摄的照片等,其数据量达到每月1 GB左右。当存储成本下降得足够多,以至于可以存储连续音频和视频时,未来MyLifeBits项目所存储的数据量将是现在的许多倍。
  目前的趋势是保存每个人成长过程中产生的所有数据,但更重要的是,计算机产生的数据可能比个人产生的更多。机器日志、RFID检测器、传感器网络、车载GPS 和零售交易数据等——所有这些都将使数据量显著增加。
  公开发布的数据量也在逐年增加。组织或企业,不仅需要管理好自己的数据,更需要从其他组织或企业的数据中获取有价值的信息,以便在未来获得更大的成功。
   这方面的先锋,如Public Data Sets on Amazon Web Services、Infochimps.org和theinfo.org,正在培育“信息共享系统”(information commons),任何人都可以在此自由下载和分析这些数据(例如通过AWS 平台实现共享,并以合理的价格收费)。不同来源的信息混合处理后,将带来意外的效果和今天难以想象的应用。
  以 Astrometry.net项目为例,这是一个观察和分析Flickr网站上天文小组所拍星空照片的项目。该项目分析每一张照片,并辨别出该图片是天空 或其他天体(例如恒星和银河系等)的哪一部分。该项目表明,如果可用的数据足够多(在本例中,为加有标签的图片数据),这些数据可用于数据创建者也想象不 到的一些应用(例如,图片分析)。
  曾有这么一句话:“大量的数据胜于好的算法。” 意思是说对于某些应用 (譬如基于先前偏好进行电影和音乐推荐),不论你的算法有多好,大量可用的数据总能带来更好的推荐效果。[3]
  现在,我们已经有了大量的数据,这对我们来说是个好消息。不幸的是,我们当下正纠结于存储和分析这些数据。