荣新IT培训中心
全国咨询热线:400-1335-066
您现在的位置:首页>技术文章 > 正文

小结关于大数据框架Hadoop的四种模块

时间:2017-08-04 10:42:11 来源:荣新IT教育培训 作者:荣新科技

对于从事大数据的同学来说,关于hadoop框架的模块不算陌生,但也有很多同学尚未弄他明白到底这些模块有什么作用,荣新IT今天就特地来为大家总结下其中的四种,关于其他的,以后我们可以再说。


Avro: 数据序列化系统,由Doug Cutting牵头开发,是一个数据序列化系统。类似于其他序列化机制,Avro可以将数据结构或者对象转换成便于存储和传输的格式,其设计目标是用于支持数据密集型应用,适合大规模数据的存储与交换。Avro提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC和简单动态语言集成等功能。

Cassandra: 可扩展的多主数据库,没有单点故障。是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源,此后,由于Cassandra良好的可扩展性,被Digg、Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。>>>点击了解更多关于大数据的知识<<<

Chukwa: 用于管理大型分布式系统的数据收集系统(2000+以上的节点, 系统每天产生的监控数据量在T级别)。它构建在Hadoop的HDFS和MapReduce基础之上,继承了Hadoop的可伸缩性和鲁棒性。Chukwa包含一个强大和灵活的工具集,提供了数据的生成、收集、排序、去重、分析和展示等一系列功能,是Hadoop使用者、集群运营人员和管理人员的必备工具。

Ambari: 是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。Ambari还提供了一个用于查看集群健康状况的仪表板,例如散热图,以及可视化查看MapReduce,Pig和Hive应用程序以及以用户友好的方式诊断其性能特征的功能。也是5个顶级hadoop管理工具之一。

学无止境,阖棺乃止。知识是无穷无尽的,求知当如水滴石穿,一点一滴,日积月累。功夫深时,自然水到渠成。荣新IT祝愿大家成功路上前行不止。