Category Archives: BigData

HUE – Let’s big data.

Hue(http://gethue.com/)全称是Hadoop User Experience,由Cloudera开发,是一个用于数据分析的Apache Hadoop的Web接口。
它提供的功能包括:
一个HDFS的文件浏览器
一个MapReduce/YARN的作业浏览器
一个Hive、HBase,Cloudera Impala 和 Sqoop2 的查询编辑器。
它还附带了一个Oozie的应用程序,用于创建和监控工作流程。后期数据可视化功能也非常强大!是不是觉得很高大上啊!下面我们一起使用一下东西。 Continue reading

Posted in BigData, Hadoop.

Sqoop常用操作

该脚本由香打小伙伴整理。
首先保证HDFS和HiveServer2正常运行,集群运行在debugo01,debugo02,debugo03三台主机上。

1. 准备mysql数据

在debugo03的MySQL中新建一个测试数据库,并建测试表employee_salary。

Continue reading

Posted in BigData, HBase|Hive.

OpenTSDB部署手记

OpenTSDB是一个基于HBase上的实时监控信息收集和展示平台。它支持秒级数据采集metrics,使用HBase进行永久存储,可以做容量规划,并很容易的接入到现有的监控系统里。OpenTSDB可以从大规模的设备中获取相应的metrics并进行存储、索引以及服务,从而使得这些数据更容易让人理解,如web化,图形化等。 Continue reading

Posted in BigData, HBase|Hive, NoSQL, Tools.

HBase目录结构与Compaction

我们首先查看一下HDFS中的HBASE存储,可以找到其中几个目录

临时文件 /hbase/.tmp
归档 /hbase/archive
WAL日志 /hbase/WALs/debugo01 …
数据 /hbase/data//
Continue reading

Posted in BigData, HBase|Hive.

使用importtsv命令加载数据

Bulkload是向HBase批量加载数据的方式,它会直接将数据进行准备和并加载成HFile,并直接讲文件插入到RegionServer中,这比通过一个MapReduce/Spark作业来加载性能高得多。详细的流程如下:
1. 抽取数据并形成固定格式的文件,比如csv。
2. 将数据转换称为HFile。这需要一个MapReduce作业,可以自己来实现Map方法来,HBase来完成后面的Reducer操作。最后,每一个region的HFile将会在输出目录被创建出来。
3. 将生成的HFile加载到HBase中,并在所有的regionserver上注册它们,即完成Complete Bulkload阶段。
Continue reading

Posted in BigData, HBase|Hive, NoSQL.

HBase 权限控制

HBase的权限管理依赖协协处理器。所以我们需要配置hbase.security.authorization=true,以及hbase.coprocessor.master.classeshbase.coprocessor.master.classes使其包含org.apache.hadoop.hbase.security. access.AccessController来提供安全管控能力。所以需要设置下面参数:

Continue reading

Posted in BigData, HBase|Hive, NoSQL.

HBase 常用参数整理

1. 通用和master配置

hbase.rootdir
默认: file:///tmp/hbase-${user.name}/hbase
region server的数据根目录,用来持久化HBase。例如,要表示hdfs中的’/hbase’目录,namenode 运行在debugo01的8020端口,则需要设置为hdfs:// debugo01:8020/hbase。这个是必须要设置的项目,默认值本地文件系统的/tmp只能在单机模式使用。 Continue reading

Posted in BigData, HBase|Hive, NoSQL.

HBase Shell 常用操作

HBase Shell是HBase的一个命令行工具,我们可以通过它对HBase进行维护操作。我们可以使用sudo -u hbase hbase shell来进入HBase shell。
在HBase shell中,可以使用status, version和whoami分别获得当前服务的状态、版本、登录用户和验证方式。

HBase shell中的帮助命令非常强大,使用help获得全部命令的列表,使用help ‘command_name’获得某一个命令的详细信息。 Continue reading

Posted in BigData, HBase|Hive, NoSQL.

HDP/Ambari集群扩容笔记

最近HDP的一次扩容工作中(Ambari 1.6.x, CentOS 6.6),遇到了大大小小不少坑。借此总结一下: Continue reading

Posted in BigData, Hadoop.

HDFS NFS网关操作实战

续上一篇译文,集群运行在test[1-4],设置nfsserver的用户组是root,host为test1(同namenode)。版本为CDH5.2.1(Hadoop 2.5.0)。
Continue reading

Posted in BigData, Hadoop, Ops.