Hadoop连载系列之三：HBase分布式安装-Hadoop-@大数据资讯

　　1 概述

　　HBase是基于hadoop的分布式的、面向列的、可拓展的开源数据库。当需要对大数据进行随机的、实时的读写时使用HBase。属于NoSQL。HBase利用 Hadoop/HDFS作为其文件存储系统，利用Hadoop/MapReduce来处理HBase中的海量数据，利用Zookeeper提供分布式协作、分布式同步、配置管理等。

　　HBase的架构：

　　LSM - 解决磁盘随机写问题(顺序写才是王道);

　　HFile - 解决数据索引问题(只有索引才能高效读);

　　WAL - 解决数据持久化(面对故障的持久化解决方案);

　　zooKeeper - 解决核心数据的一致性和集群恢复;

　　Replication - 引入类似MySQL的数据复制方案，解决可用性;

　　此外还有：自动分拆Split、自动压缩(compaction,LSM的伴生技术)、自动负载均衡、自动region迁移。

　　HBase集群需要依赖于一个Zookeeper ensemble。HBase集群中的所有节点以及要访问HBase

　　的客户端都需要能够访问到该Zookeeper ensemble。HBase自带了Zookeeper，但为了方便

　　其他应用程序使用Zookeeper，最好使用单独安装的Zookeeper ensemble。此外，Zookeeper ensemble一般配置为奇数个节点，并且Hadoop集群、Zookeeper ensemble、

　　HBase集群是三个互相独立的集群，并不需要部署在相同的物理节点上，他们之间是通过网

　　络通信的。

　　2 安装和配置

　　2.1 下载安装HBase

　　下载hbase-0.96.1.1-hadoop1-bin.tar.gz，并解压到/usr下，重命名为hbase目录。hbase的版本需要与 hadoop对应，查看是否对应只需要看hbase/lib/hadoop-core后面的版本号是否与hadoop的版本对应，如果不对应，可以将 hadoop下hadoop-core文件复制过来，但是不能保证不会有问题。

　　2.2 设置环境变量

　　vim /etc/profile：

　　# set hbase path

　　export HBASE_HOME=/usr/hbase

　　export PATH=$PATH:$HBASE_HOME/bin

　　2.3 配置HBase

　　编辑配置文件hbase-site.xml：vim /usr/hbase/conf/hbase-site.xml

　　单机:

　　hbase.rootdir

　　file:///tmp/hbase-${user.name}/hbase

　　伪分布:

　　hbase.rootdir

　　hdfs://localhost:9000/hbase

　　dfs.replication

　　完全分布:

　　1)配置hbase-site.xml

　　hbase.rootdir

　　hdfs://192.168.56.1:9000/hbase

　　HBase数据存储目录

　　hbase.cluster.distributed

　　true

　　指定HBase运行的模式：false：单机/伪分布;true：完全分布

　　hbase.master

　　hdfs://192.168.56.1:60000

　　指定Master位置

　　hbase.zookeeper.property.dataDir

　　/var/lib/zookeeper

　　hbase.zookeeper.quorum

　　192.168.56.1,192.168.56.101,192.168.56.102,192.168.56.103,192.168.56.104

　　指定ZooKeeper集群

　　hbase.master.info.bindAddress

　　192.168.56.1

　　The bind address for the HBase Master web UI

　　2) 编辑配置文件regionservers:

　　192.168.56.101

　　192.168.56.102

　　192.168.56.103

　　192.168.56.104

　　3)设置环境变量hbase-env.sh:

　　export JAVA_HOME=/usr/java/jdk1.7.0_45/

　　export HBASE_CLASSPATH=/usr/hadoop/conf

　　export HBASE_HEAPSIZE=2048

　　export HBASE_MANAGES_ZK=false

　　注解：

　　其中，JAVA_HOME表示java安装目录，HBASE_CLASSPATH指向存放有Hadoop配置文件的目录，这样HBase可以找到 HDFS的配置信息，由于本文Hadoop和HBase部署在相同的物理节点，所以就指向了Hadoop安装路径下的conf目录。 HBASE_HEAPSIZE单位为MB，可以根据需要和实际剩余内存设置，默认为1000。HBASE_MANAGES_ZK=false指示 HBase使用已有的Zookeeper而不是自带的。

　　2.4 向各个节点复制，然后配置各个节点的环境变量

　　scp -r /usr/hbase 节点ip：/usr

　　3 启动和停止HBase

　　启动HBase：需事先启动HDFS和Zookeeper，启动顺序为HDFS-》Zookeeper-》HBase

　　在server1上启动所有的节点：start-hbase.sh

　　停止HBase：stop-hbase.sh

　　连接HBase创建表：hbase shell

　　HBase Shell; enter 'help' for list of supported commands.

　　Type "exit" to leave the HBase Shell

　　Version 0.96.1.1-hadoop1, rUnknown, Tue Dec 17 11:52:14 PST 2013

　　hbase(main):001:0>

　　查看状态：hbase(main):001:0> status

　　4 servers, 0 dead, 2.2500 average load

　　4 测试和Web查看

　　4.1 创建表测试

　　创建一个名为 small的表，这个表只有一个 column family 为 cf。可以列出所有的表来检查创建情况，然后插入些值。

　　hbase(main):003:0> create 'small', 'cf'

　　0 row(s) in 1.2200 seconds

　　hbase(main):003:0> list

　　small

　　1 row(s) in 0.0550 seconds

　　hbase(main):004:0> put 'small', 'row1', 'cf:a', 'value1'

　　0 row(s) in 0.0560 seconds

　　hbase(main):005:0> put 'small', 'row2', 'cf:b', 'value2'

　　0 row(s) in 0.0370 seconds

　　hbase(main):006:0> put 'small', 'row3', 'cf:c', 'value3'

　　0 row(s) in 0.0450 seconds

　　检查插入情况：Scan这个表

　　hbase(main):005:0> scan 'small'

　　Get一行，操作如下

　　hbase(main):008:0> get 'small', 'row1'

　　disable 再 drop 这张表，可以清除你刚刚的操作

　　hbase(main):012:0> disable 'small'

　　0 row(s) in 1.0930 seconds

　　hbase(main):013:0> drop 'small'

　　0 row(s) in 0.0770 seconds

　　导出与导入

　　hbase org.apache.hadoop.hbase.mapreduce.Driver export small small

　　导出的表，在hadoop文件系统的当前用户目录下，small文件夹中。例如，导出后在hadoop文件系统中的目录结构：

　　hadoop dfs -ls

　　Found 1 items

　　drwxr-xr-x - hadoop supergroup 0 2013-10-22 10:44 /user/hadoop/small

　　hadoop dfs -ls ./small

　　Found 3 items

　　-rw-r--r-- 2 hadoop supergroup 0 2013-10-22 10:44 /user/hadoop/small/_SUCCESS

　　drwxr-xr-x - hadoop supergroup 0 2013-10-22 10:44 /user/hadoop/small/_logs

　　-rw-r--r-- 2 hadoop supergroup 285 2013-10-22 10:44 /user/hadoop/small/part-m-00000

　　把这个表导入到另外一台集群中hbase中时，需要把part-m-00000先put到另外hadoop中，假设put的路径也是：

　　/user/hadoop/small/

　　而且，这个要导入的hbase要已经建有相同第表格。

　　那么从hadoop中导入数据到hbase：

　　hbase org.apache.hadoop.hbase.mapreduce.Driver import small part-m-00000

　　这样，没有意外的话就能正常把hbase数据导入到另外一个hbase数据库。

　　4.2 Web查看

　　用于访问和监控Hadoop系统运行状态

　　Daemon缺省端口配置参数

　　HDFSNamenode50070dfs.http.address

　　Datanodes50075dfs.datanode.http.address

　　Secondarynamenode50090dfs.secondary.http.address

　　Backup/Checkpoint node*50105dfs.backup.http.address

　　MRJobracker50030mapred.job.tracker.http.address

　　Tasktrackers50060mapred.task.tracker.http.address

　　HBaseHMaster60010hbase.master.info.port

　　HRegionServer60030hbase.regionserver.info.port

　　http://192.168.56.1:60010/master-status

　　5 总结

　　本文介绍了HBase安装和配置，包括单机、伪分布、完全分布三种模式的配置，重点在于HBase分布式集群的安装和配置。后续将会介绍Chukwa集群、Pig等。