Category Archives: BigData

HUE – Let’s big data.

2015年4月3日 by debugo · 17 Comments

Hue（http://gethue.com/）全称是Hadoop User Experience，由Cloudera开发，是一个用于数据分析的Apache Hadoop的Web接口。
它提供的功能包括：
一个HDFS的文件浏览器
一个MapReduce/YARN的作业浏览器
一个Hive、HBase，Cloudera Impala 和 Sqoop2 的查询编辑器。
它还附带了一个Oozie的应用程序，用于创建和监控工作流程。后期数据可视化功能也非常强大！是不是觉得很高大上啊！下面我们一起使用一下东西。 Continue reading →

Posted in BigData, Hadoop.

Sqoop常用操作

2015年4月2日 by debugo · 14 Comments

该脚本由香打小伙伴整理。
首先保证HDFS和HiveServer2正常运行，集群运行在debugo01,debugo02,debugo03三台主机上。

1. 准备mysql数据

在debugo03的MySQL中新建一个测试数据库，并建测试表employee_salary。

mysql -uroot -p
mysql> create database test_sqoop;
Query OK, 1 row affected (0.00 sec)
mysql> use test_sqoop;
SET FOREIGN_KEY_CHECKS=0;
DROP TABLE IF EXISTS `employee_salary`;
CREATE TABLE `employee_salary` (
  `name` text,
  `id` int(8) NOT NULL AUTO_INCREMENT,
  `salary` int(8) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=MyISAM AUTO_INCREMENT=3 DEFAULT CHARSET=latin1;
INSERT INTO `employee_salary` VALUES ('zhangsan', '1', '5000');
INSERT INTO `employee_salary` VALUES ('lisi', '2', '5500');
commit;

CREATE USER 'test'@'%' IDENTIFIED BY 'test';
GRANT ALL PRIVILEGES ON test_sqoop.* TO 'test'@'%';

mysql -uroot -p

mysql> create database test_sqoop;

Query OK, 1 row affected (0.00 sec)

mysql> use test_sqoop;

SET FOREIGN_KEY_CHECKS=0;

DROP TABLE IF EXISTS `employee_salary`;

CREATE TABLE `employee_salary` (

`name` text,

`id` int(8) NOT NULL AUTO_INCREMENT,

`salary` int(8) DEFAULT NULL,

PRIMARY KEY (`id`)

) ENGINE=MyISAM AUTO_INCREMENT=3 DEFAULT CHARSET=latin1;

INSERT INTO `employee_salary` VALUES ('zhangsan', '1', '5000');

INSERT INTO `employee_salary` VALUES ('lisi', '2', '5500');

commit;

CREATE USER 'test'@'%' IDENTIFIED BY 'test';

GRANT ALL PRIVILEGES ON test_sqoop.* TO 'test'@'%';

Continue reading →

Posted in BigData, HBase|Hive.

OpenTSDB部署手记

2015年3月13日 by debugo · 10 Comments

OpenTSDB是一个基于HBase上的实时监控信息收集和展示平台。它支持秒级数据采集metrics，使用HBase进行永久存储，可以做容量规划，并很容易的接入到现有的监控系统里。OpenTSDB可以从大规模的设备中获取相应的metrics并进行存储、索引以及服务，从而使得这些数据更容易让人理解，如web化，图形化等。 Continue reading →

Posted in BigData, HBase|Hive, NoSQL, Tools.

HBase目录结构与Compaction

2015年3月12日 by debugo · 2 Comments

我们首先查看一下HDFS中的HBASE存储，可以找到其中几个目录

hdfs dfs -ls -R /hbase

1	hdfs dfs -ls -R /hbase

临时文件 /hbase/.tmp
归档 /hbase/archive
WAL日志 /hbase/WALs/debugo01 …
数据/hbase/data// Continue reading →

Posted in BigData, HBase|Hive.

使用importtsv命令加载数据

2015年3月10日 by debugo · 4 Comments

Bulkload是向HBase批量加载数据的方式，它会直接将数据进行准备和并加载成HFile，并直接讲文件插入到RegionServer中，这比通过一个MapReduce/Spark作业来加载性能高得多。详细的流程如下：
1. 抽取数据并形成固定格式的文件，比如csv。
2. 将数据转换称为HFile。这需要一个MapReduce作业，可以自己来实现Map方法来，HBase来完成后面的Reducer操作。最后，每一个region的HFile将会在输出目录被创建出来。
3. 将生成的HFile加载到HBase中，并在所有的regionserver上注册它们，即完成Complete Bulkload阶段。
Continue reading →

Posted in BigData, HBase|Hive, NoSQL.

HBase 权限控制

2015年3月10日 by debugo · 10 Comments

HBase的权限管理依赖协协处理器。所以我们需要配置hbase.security.authorization=true，以及hbase.coprocessor.master.classes和hbase.coprocessor.master.classes使其包含org.apache.hadoop.hbase.security. access.AccessController来提供安全管控能力。所以需要设置下面参数：

<property>
      <name>hbase.superuser</name>
      <value>hbase</value>
</property>
<property>
    <name>hbase.coprocessor.region.classes</name>    
<value>org.apache.hadoop.hbase.security.access.AccessController</value>  </property>
  <property>
    <name>hbase.coprocessor.master.classes</name>
    <value>org.apache.hadoop.hbase.security.access.AccessController</value>
  </property>
  <property>
    <name>hbase.rpc.engine</name>
    <value>org.apache.hadoop.hbase.ipc.SecureRpcEngine</value>
  </property>
<property>
      <name>hbase.security.authorization</name>
      <value>true</value>
  </property>

<name>hbase.superuser</name>

<value>hbase</value>

</property>

<name>hbase.coprocessor.region.classes</name>

<value>org.apache.hadoop.hbase.security.access.AccessController</value> </property>

<name>hbase.coprocessor.master.classes</name>

<value>org.apache.hadoop.hbase.security.access.AccessController</value>

</property>

<name>hbase.rpc.engine</name>

<value>org.apache.hadoop.hbase.ipc.SecureRpcEngine</value>

</property>

<name>hbase.security.authorization</name>

</property>

Continue reading →

Posted in BigData, HBase|Hive, NoSQL.

HBase 常用参数整理

2015年3月10日 by debugo · 2 Comments

1. 通用和master配置

hbase.rootdir
默认: file:///tmp/hbase-${user.name}/hbase
region server的数据根目录，用来持久化HBase。例如，要表示hdfs中的’/hbase’目录，namenode 运行在debugo01的8020端口,则需要设置为hdfs:// debugo01:8020/hbase。这个是必须要设置的项目，默认值本地文件系统的/tmp只能在单机模式使用。 Continue reading →

Posted in BigData, HBase|Hive, NoSQL.

HBase Shell 常用操作

2015年3月10日 by debugo · 19 Comments

HBase Shell是HBase的一个命令行工具，我们可以通过它对HBase进行维护操作。我们可以使用sudo -u hbase hbase shell来进入HBase shell。
在HBase shell中，可以使用status, version和whoami分别获得当前服务的状态、版本、登录用户和验证方式。

> status
3 servers, 1 dead, 1.3333 average load
> version
0.98.6-cdh5.3.1, rUnknown, Tue Jan 27 16:43:50 PST 2015
> whoami
hbase (auth:SIMPLE)
groups: hbase

> status

3 servers, 1 dead, 1.3333 average load

> version

0.98.6-cdh5.3.1, rUnknown, Tue Jan 27 16:43:50 PST 2015

> whoami

hbase (auth:SIMPLE)

groups: hbase

HBase shell中的帮助命令非常强大，使用help获得全部命令的列表，使用help ‘command_name’获得某一个命令的详细信息。 Continue reading →

Posted in BigData, HBase|Hive, NoSQL.

HDP/Ambari集群扩容笔记

2015年1月14日 by debugo · 2 Comments

最近HDP的一次扩容工作中(Ambari 1.6.x, CentOS 6.6)，遇到了大大小小不少坑。借此总结一下： Continue reading →

Posted in BigData, Hadoop.

HDFS NFS网关操作实战

2014年12月24日 by debugo · 4 Comments

续上一篇译文，集群运行在test[1-4],设置nfsserver的用户组是root，host为test1（同namenode）。版本为CDH5.2.1(Hadoop 2.5.0)。
Continue reading →

Posted in BigData, Hadoop, Ops.

Category Archives: BigData

HUE – Let’s big data.

Sqoop常用操作

1. 准备mysql数据

OpenTSDB部署手记

HBase目录结构与Compaction

使用importtsv命令加载数据

HBase 权限控制

HBase 常用参数整理

1. 通用和master配置

HBase Shell 常用操作

HDP/Ambari集群扩容笔记

HDFS NFS网关操作实战

近期文章

热评文章

文章归档

分类目录

友链

功能