荣新IT培训中心
全国咨询热线:400-1335-066
您现在的位置:首页>媒体报道 > 正文

spark sql大数据分析平台

时间:2017-12-12 14:11:59 来源:荣新IT教育培训 作者:荣新科技
今天荣新科技为大家分享的是关于大数据培训中关于分析平台的一点知识,这个就是个认识,希望对大家有所帮助,好了下面一起来看看吧。

spark sql大数据分析平台
 
Spark SQL

Spark SQL 开端被称为 Shark,Spark SQL 对于 Apache Spark 项目开端变得越来越重要。它就像现在的开发人员在开发应用程序时常用的接口。Spark SQL 专心于结构化数据的处理,借用了 R 和 Python 的数据结构(在 Pandas 中)。不过望文生义,Spark SQL 在查询数据时还兼容了 SQL2003 的接口,将 Apache Spark 的强壮功用带给分析师和开发人员。

除了支持规范的 SQL 外,Spark SQL 还提供了一个规范接口来读写其他数据存储,包含 JSON,HDFS,Apache Hive,JDBC,Apache Parquet,所有这些都是能够直接运用的。像其他盛行的存储东西 —— Apache Cassandra、MongoDB、Apache HBase 和一些其他的能够从 Spark Packages 生态系统中提取出来独自运用的连接器。

下边这行简单的代码是从数据结构中挑选一些字段:

citiesDF.select(“name”, “pop”)

要运用 SQL 接口,首要要将数据结构注册成一个临时表,之后我们就能够运用 SQL 句子进行查询:

citiesDF.createOrReplaceTempView(“cities”)

spark.sql(“SELECT name, pop FROM cities”)

在后台, Apache Spark 运用名为 Catalyst 的查询优化器来查看数据和查询,以便为数据局部性和核算生成有用的查询方案,以便在集群中履行所需的核算。在 Apache Spark 2.x 版别中,Spark SQL 的数据结构和数据集的接口(本质上是一个能够在编译时查看正确性的数据结构类型,并在运行时运用内存并和核算优化)是引荐的开发方式。RDD 接口依然可用,但只有无法在 Spark SQL 范例中封装的情况下才引荐运用
荣新科技提示各位同学:大数据培训或者大数据学习都是需要一定基础的,不同于Linux运维,大数据对学习者要求比较高,希望大家量力而行。
文章源自荣新科技官网:www.vfast.com.cn欢迎访问,转载需注明出处