HUE – Let’s big data.

Hue(http://gethue.com/)全称是Hadoop User Experience,由Cloudera开发,是一个用于数据分析的Apache Hadoop的Web接口。
它提供的功能包括:
一个HDFS的文件浏览器
一个MapReduce/YARN的作业浏览器
一个Hive、HBase,Cloudera Impala 和 Sqoop2 的查询编辑器。
它还附带了一个Oozie的应用程序,用于创建和监控工作流程。后期数据可视化功能也非常强大!是不是觉得很高大上啊!下面我们一起使用一下东西。

1. HUE部署

CDH 5.x中都集成了HUE这个模块,本文使用的版本是CDH5.3.2。
Hue 可以通过下面两种方式访问 Hdfs 中的数据:
WebHDFS:提供高速的数据传输,客户端直接和 DataNode 交互
HttpFS:一个代理服务,方便与集群外部的系统集成
两者都支持 HTTP REST API,但是 Hue 只能配置其中一种方式;对于 HDFS HA部署方式,只能使用 HttpFS。所以在运行HUE之前,我们需要准备HDFS,HBase,Hiveserver2,HBase等基础服务,并启动httpfs服务。
安装httpfs和HUE

确认/etc/hadoop-httpfs/conf/httpfs-site.xml包含HUE的代理用户和组:

启动httpfs服务

确认$HADOOP_CONF_DIR/core-site.xml包含以下参数:

完成后要重启hadoop以生效。

2. 配置Hue

HUE需要指向HiveServer2。因此需要更新/etc/hue/conf/hue.ini如下:

hive_server_host, hive_server_port参数配置为HiveServer2所在主机和端口。
(2) 配置Hue的端口与访问地址

编辑/etc/hue/conf/hue.ini的desktop属性,配置Web UI监听地址和端口。

YARN_Cluster的部分,配置RM的地址。

启动HUE:

3. 使用HUE

浏览器登录http://debugo02:8888
首次登陆创建超级用户:hue/hue。登录后我们可以到右上角的管理里,创建一个用户。比如:hdfs/hdfs
1
右上角的管理HDFS,可以让我们来操作HDFS的内容。
2
可以直接在这个图形界面上传/下载文件,甚至可以直接编辑文件。(目测如果文件太大的情况下会不太稳定)。
3
在查询编辑器——Hive中,我们可以看到数据库下面所有的表信息,并能执行HQL语句,非常方便。
4
定义新表:
5

这些功能仅仅是HUE的冰山一角,其他功能还包括:
> 执行impala的查询
> 执行其他RDBMS的查询
> 查看和编辑HBase的模式
> Pig编辑器/执行器
> 执行Sqoop作业
> 查看ZooKeeper节点和目录
> 提交Spark作业(上传jar)并执行,结果可以即时的显示出来。
> 设计作业任务(作业的类型可以是Java,MR,Streaming,Hive,pig,sqoop,FS,SSH,Shell,Email,Distcp),这里可以上传对应的jar或者脚本
> 将指定的作业任务编辑一个工作流(workflow)并可调度
> 执行solr搜索
> 配置HDFS ACL和Sentry
> 查看YARN上正在运行的作业
当然对于每个具体的功能,都需要去具体的配置文件中写入相关的信息。HUE的功能可以说涉及到大数据工作的方方面面,通过在界面的配置就完成了绝大多数大数据工作,避免去集群上提交作业、查询相关信息。高效的大数据工作从此走起!

^^

Posted in BigData, Hadoop.
  1. 老师,能问一下 你这个博客 使用的wordpress吗

  2. 传奇私服http://bbs.caipiaodian.com.cn/ 传奇私服sf传奇私服http://www.banshouseo.com/ 传奇服务端传奇私服http://www.zhanzhangzhiwang.com/ GM论坛传奇论坛http://www.banshouseo.net/ 传奇私服传奇私服http://lol.v58.org/ 传奇论坛