基于Spark的数据分析实践
发布时间:2019-06-20 12:35:56 所属栏目:教程 来源:EAWorld
导读:引言: Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件。 本文主要分析了 Spark RDD 以及 RDD 作为开发的不足之处,介
//通过 spark bin 下的 beeline 工具,可以连接到 spark ThriftServer(SparkOnHive)
Beeline 还支持传入-e 可传入一行 SQL,
也可通过 –f 指定一个 SQL File,内部可用逗号分隔的多个 SQL(存储过程)
SparkSQL Beeline 的执行效果展示 ![]() SparkSQL ThriftServer ![]() 对于 SparkSQL ThriftServer 服务,每个登陆的用户都有创建的 SparkSession,并且执行的对个 SQL 会通过时间顺序列表展示。 SparkSQL ThriftServer 服务可用于其他支持的数据库工具创建查询,也用于第三方的 BI 工具,如 tableau。 四、SparkSQL Flow SparkSQL Flow 是以 SparkSQL 为基础,开发的统一的基于 XML 配置化的可执行一连串的 SQL 操作,这一连串的 SQL 操作定义为一个 Flow。下文开始 SparkSQL Flow 的介绍: (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |