zeppelin的介绍与使用

第1章 概述

1.1 什么是zeppelin

Zeppelin是一个基于Web的notebook,提供交互数据分析和可视化。后台支持接入多种数据处理引擎,如spark,hive等。支持多种语言: Scala(Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。
开发者可以通过实现更多的解释器来为Zeppelin添加数据引擎。官方支持的执行引擎用一幅图可以清晰描述执行引擎的作用就是执行笔记中的与引擎相对应的代码,不同的引擎也会有不同的配置,引擎的详细说明参考官方文档:

http://zeppelin.apache.org/docs/0.6.2/manual/interpreters.html

1.2 原理分析

Zeppelin中最核心的概念是Interpreter,interpreter是一个插件允许用户使用一个指定的语言或数据处理器。每一个Interpreter都属于换一个InterpreterGroup,同一个InterpreterGroup的Interpreters可以相互引用,例如SparkSqlInterpreter 可以引用 SparkInterpreter 以获取 SparkContext,因为他们属于同一个InterpreterGroup。当前已经实现的Interpreter有spark解释器,python解释器,SparkSQL解释器,JDBC,Markdown和shell等。下图是Zeppelin官网中介绍Interpreter的原理图。

Interpreter接口中最重要的方法是open,close,interpert三个方法,另外还有cancel,gerProgress,completion等方法。

Open 是初始化部分,只会调用一次。 Close 是关闭释放资源的接口,只会调用一次。 Interpret 会运行一段代码并返回结果,同步执行方式。 Cancel可选的接口,用于结束interpret方法 getPregress 方法获取interpret的百分比进度 completion 基于游标位置获取结束列表,实现这个接口可以实现自动结束。

第2章 部署

2.1下载

为了快速使用Zeppelin,可下载官方编译好的可执行版本,该版本包括两种类型,完整Interpreter版本,基础Interpreter版,下载基础版本即可,以后如有需要,可对Interpreter进行单独安装。
下载地址:http://zeppelin.apache.org/download.html。安装以及启动步骤如下

2.2 Apache Zeppelin安装

 解压tar -zxvf zeppelin-0.6.2-bin-netinst.tgz
 启动进程:zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh start
 访问页面:http://localhost:8080
 停止进程:zeppelin-0.6.2-bin-netinst/bin# ./zeppelin-daemon.sh start

2.3 HDP安装

Add service

第3章 使用案例

3.1 集成spark

3.1.1新建一个spark node

本次示例在HDP 上的zeppelin操作,所以创建完spark node 无需其他配置,直接使用即可:

3.1.2创建一个测试文本
[root@node1 module]# vi city_info.txt
1       北京    华北
2       上海    华东
3       深圳    华南
4       广州    华南
5       武汉    华中
6       南京    华东
7       天津    华北
8       成都    西南
9       哈尔滨  东北
10      大连    东北
11      沈阳    东北
12      西安    西北
13      长沙    华中
14      重庆    西南
15      济南    华东
16      石家庄  华北
17      银川    西北
18      杭州    华东
19      保定    华北
20      福州    华南
21      贵阳    西南
22      青岛    华东
23      苏州    华东
24      郑州    华北
25      无锡    华东
26      厦门    华南

上传到HDFS 指定路径:/user/zeppelin/test/city_info.txt 下

3.1.3 运行spark shell语句

val peopleRDD = sc.textFile(“hdfs://node1:8020/user/zeppelin/test/city_info.txt”)
case class People(id:Int,city:String,area:String)
peopleRDD.map{x=> var fields=x.split("\t");People(fields(0).toInt,fields(1),fields(2))}.toDF.show

这样我们就可以在web页面上执行spark-shell的操作了

3.2 集成mysql

3.2.1 创建一个jdbc的node
3.2.2 配置jdbc的Interpreter

如果zeppelin节点没有mysql驱动环境,请注意添加依赖包:

3.2.3 操作库和表数据

3.3 集成hive

3.3.1 创建一个interpreter

配置主要的hive jdbc参数

3.3.2 创建一个hive node

Create New Node – Default Interpreter(选择上一步创建的hive)

(0)

相关推荐

  • Ansible--快速入门

    介绍 Ansible是一款简单的运维自动化工具,只需要使用ssh协议连接就可以来进行系统管理,自动化执行命令,部署等任务. Ansible的特点 1.ansible不需要单独安装客户端,也不需要启动任 ...

  • 「Spark」Spark SQL Thrift Server运行方式

    Spark SQL可以使用JDBC/ODBC或命令行接口充当分布式查询引擎.这种模式,用户或者应用程序可以直接与Spark SQL交互,以运行SQL查询,无需编写任何代码. Spark SQL提供两种 ...

  • 2021年三亚养猪补贴对象、标准及申请流程介绍!

    近几年随着猪价的上涨,养猪户也越来越多,但是目前生猪养殖成本大幅上升,市场猪肉价格居高不下,为了鼓励生猪养殖,很多地区发布了一系列的养猪补贴政策,今天就给大家介绍一下2021年三亚生猪养殖补贴政策及养 ...

  • 哈伯-博施工艺全介绍

    哈伯-博施法是一种将氮和氢固定在一起生产氨的方法,氨是植物肥料生产的关键部分.该工艺在20世纪初由弗里茨·哈伯(Fritz Haber)开发,后来被卡尔·博世(Carl Bosch)修改为生产化肥的工 ...

  • 蜂窝活性炭的应用介绍

    产品简介 山东新空活性炭以高品质煤质活性炭为原理,可广泛应用于各类气体净化设备和废气治理工程. 蜂窝活性炭是一种具有大比表面积,微孔结构,高吸附容量的活性炭产品.选用蜂窝活性炭吸附法,即废气与具有大比 ...

  • (35条消息) 中国城域网路由情况介绍

    中国的城域网,大概有三张比较典型的,一个是中国移动的CMnet,一个是中国电信IP城域网,还有一个是中国网通IP城域网.作为接入最后的阵地,城域网的业务是最复杂的.含盖了IPTV,语音,Interne ...

  • 山东41家主要地炼企业介绍汇总!

    一.山东地炼加工能力 鑫岳燃化240万吨,亚通石化276万吨,天弘化学440万吨,精细化工197万吨,利津石化350万吨,垦利石化252万吨,神驰252万吨,齐润石化220万,京博石化331万吨,鲁清 ...

  • 《内蒙古中医药》2013年第3期中介绍了...

    <内蒙古中医药>2013年第3期中介绍了一个治疗乙肝的验方--乙肝扶正解毒汤,此方由9味药组成: 党参.白术.生黄芪.丹参.刺五加.虎杖.叶下珠.半枝莲.绞股蓝. 方中: 党参.白术.生黄 ...

  • 2020年全球封装代工厂(OSAT)营收31强排名(附芯片 IC 封装工艺介绍(PPT)))

    数据来源:半导体综研 ---- / END / ---- 注:如有遗漏错误之处请指正,联系方式如下:

  • 麦芽介绍 麦芽的功效与作用有哪些

    行气消食.健脾开胃.消肿祛瘀.麦芽,它是一个非常好的消食的药,用于食积的患者,效果非常好.消食药有很多种,麦芽主要用于吃米饭比较多以后的消食,它的味甘,性非常的平和,归脾.胃经.主要功效是行气消食,同 ...

  • 最贵的黑酸枝是什么品种的?八种最贵黑酸枝特性介绍!

    最贵的黑酸枝是什么品种的?八种最贵黑酸枝特性介绍!趣历史小编给大家提供详细的相关内容. 说到黑酸枝其实大家也知道的很多,世界上黑酸枝很多很多,但是大致的可以分为七大类,所以下面我们一起来盘点看看,下面 ...