什么是impala,如何安装使用Impala

作者&投稿:肥迹 (若有异议请与网页底部的电邮联系)
什么是impala,如何安装使用Impala~

一、Impala简介
Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。
二、Impala安装
1.安装要求
(1)软件要求

Red Hat Enterprise Linux (RHEL)/CentOS 6.2 (64-bit)
CDH 4.1.0 or later
Hive
MySQL


(2)硬件要求
在Join查询过程中需要将数据集加载内存中进行计算,因此对安装Impalad的内存要求较高。
2、安装准备

(1)操作系统版本查看
>more/etc/issue
CentOSrelease 6.2 (Final)
Kernel on an \m
(2)机器准备
10.28.169.112mr5
10.28.169.113mr6
10.28.169.114mr7
10.28.169.115mr8

各机器安装角色
mr5:NameNode、ResourceManager、SecondaryNameNode、Hive、impala-state-store
mr6、mr7、mr8:DataNode、NodeManager、impalad
(3)用户准备
在各个机器上新建用户hadoop,并打通ssh
(4)软件准备
到cloudera官网下载:
Hadoop:
hadoop-2.0.0-cdh4.1.2.tar.gz
hive:
hive-0.9.0-cdh4.1.2.tar.gz
impala:
impala-0.3-1.p0.366.el6.x86_64.rpm
impala-debuginfo-0.3-1.p0.366.el6.x86_64.rpm
impala-server-0.3-1.p0.366.el6.x86_64.rpm
impala-shell-0.3-1.p0.366.el6.x86_64.rpm
impala依赖包下载:


4、hadoop-2.0.0-cdh4.1.2安装

(1)安装包准备
hadoop用户登录到mr5机器,将hadoop-2.0.0-cdh4.1.2.tar.gz上传到/home/hadoop/目录下并解压:
tar zxvf hadoop-2.0.0-cdh4.1.2.tar.gz
(2)配置环境变量
修改mr5机器hadoop用户主目录/home/hadoop/下的.bash_profile环境变量:
exportJAVA_HOME=/usr/jdk1.6.0_30
exportJAVA_BIN=${JAVA_HOME}/bin
exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_OPTS="-Djava.library.path=/usr/local/lib-server -Xms1024m -Xmx2048m -XX:MaxPermSize=256m -Djava.awt.headless=true-Dsun.net.client.defaultReadTimeout=600
00-Djmagick.systemclassloader=no -Dnetworkaddress.cache.ttl=300-Dsun.net.inetaddr.ttl=300"
exportHADOOP_HOME=/home/hadoop/hadoop-2.0.0-cdh4.1.2
exportHADOOP_PREFIX=$HADOOP_HOME
exportHADOOP_MAPRED_HOME=${HADOOP_HOME}
exportHADOOP_COMMON_HOME=${HADOOP_HOME}
exportHADOOP_HDFS_HOME=${HADOOP_HOME}
exportHADOOP_YARN_HOME=${HADOOP_HOME}
export PATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
exportJAVA_HOME JAVA_BIN PATH CLASSPATH JAVA_OPTS
exportHADOOP_LIB=${HADOOP_HOME}/lib
exportHADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
(3)修改配置文件
在机器mr5上hadoop用户登录修改hadoop的配置文件(配置文件目录:hadoop-2.0.0-cdh4.1.2/etc/hadoop)
(1)、slaves :
添加以下节点
mr6
mr7
mr8

(2)、hadoop-env.sh :
增加以下环境变量
exportJAVA_HOME=/usr/jdk1.6.0_30
exportHADOOP_HOME=/home/hadoop/hadoop-2.0.0-cdh4.1.2
exportHADOOP_PREFIX=${HADOOP_HOME}
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
exportHADOOP_COMMON_HOME=${HADOOP_HOME}
exportHADOOP_HDFS_HOME=${HADOOP_HOME}
exportHADOOP_YARN_HOME=${HADOOP_HOME}
exportPATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
exportJAVA_HOME JAVA_BIN PATH CLASSPATH JAVA_OPTS
exportHADOOP_LIB=${HADOOP_HOME}/lib
exportHADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

(3)、core-site.xml :


fs.default.name
hdfs://mr5:9000
The name of the defaultfile system.Either the literal string "local" or a host:port forNDFS.
true


io.native.lib.available
true


hadoop.tmp.dir
/home/hadoop/tmp
A base for other temporarydirectories.



(4)、hdfs-site.xml :


dfs.namenode.name.dir
file:/home/hadoop/dfsdata/name
Determines where on thelocal filesystem the DFS name node should store the name table.If this is acomma-delimited list of directories,then name table is replicated in all of thedirectories,for redundancy.
true



dfs.datanode.data.dir
file:/home/hadoop/dfsdata/data
Determines where on thelocal filesystem an DFS data node should store its blocks.If this is acomma-delimited list of directories,then data will be stored in all nameddirectories,typically on different devices.Directories that do not exist areignored.

true



dfs.replication
3



dfs.permission
false



(5)、mapred-site.xml:


mapreduce.framework.name
yarn



mapreduce.job.tracker
hdfs://mr5:9001
true



mapreduce.task.io.sort.mb
512



mapreduce.task.io.sort.factor
100



mapreduce.reduce.shuffle.parallelcopies
50



mapreduce.cluster.temp.dir
file:/home/hadoop/mapreddata/system
true



mapreduce.cluster.local.dir
file:/home/hadoop/mapreddata/local
true



(6)、yarn-env.sh :
增加以下环境变量
exportJAVA_HOME=/usr/jdk1.6.0_30
exportHADOOP_HOME=/home/hadoop/hadoop-2.0.0-cdh4.1.2
exportHADOOP_PREFIX=${HADOOP_HOME}
exportHADOOP_MAPRED_HOME=${HADOOP_HOME}
exportHADOOP_COMMON_HOME=${HADOOP_HOME}
exportHADOOP_HDFS_HOME=${HADOOP_HOME}
exportHADOOP_YARN_HOME=${HADOOP_HOME}
exportPATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
exportJAVA_HOME JAVA_BIN PATH CLASSPATH JAVA_OPTS
exportHADOOP_LIB=${HADOOP_HOME}/lib
exportHADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

(7)、yarn-site.xml:




yarn.resourcemanager.address
mr5:8080



yarn.resourcemanager.scheduler.address
mr5:8081



yarn.resourcemanager.resource-tracker.address
mr5:8082



yarn.nodemanager.aux-services
mapreduce.shuffle



yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler



yarn.nodemanager.local-dirs
file:/home/hadoop/nmdata/local
thelocal directories used by the nodemanager



yarn.nodemanager.log-dirs
file:/home/hadoop/nmdata/log
thedirectories used by Nodemanagers as log directories


(4)拷贝到其他节点
(1)、在mr5上配置完第2步和第3步后,压缩hadoop-2.0.0-cdh4.1.2
rm hadoop-2.0.0-cdh4.1.2.tar.gz
tar zcvf hadoop-2.0.0-cdh4.1.2.tar.gz hadoop-2.0.0-cdh4.1.2

然后将hadoop-2.0.0-cdh4.1.2.tar.gz远程拷贝到mr6、mr7、mr8机器上
scp/home/hadoop/hadoop-2.0.0-cdh4.1.2.tar.gz hadoop@mr6:/home/hadoop/
scp/home/hadoop/hadoop-2.0.0-cdh4.1.2.tar.gz hadoop@mr7:/home/hadoop/
scp/home/hadoop/hadoop-2.0.0-cdh4.1.2.tar.gz hadoop@mr8:/home/hadoop/

(2)、将mr5机器上hadoop用户的配置环境的文件.bash_profile远程拷贝到mr6、mr7、mr8机器上
scp/home/hadoop/.bash_profile hadoop@mr6:/home/hadoop/
scp/home/hadoop/.bash_profile hadoop@mr7:/home/hadoop/
scp/home/hadoop/.bash_profile hadoop@mr8:/home/hadoop/
拷贝完成后,在mr5、mr6、mr7、mr8机器的/home/hadoop/目录下执行
source.bash_profile
使得环境变量生效
(5)启动hdfs和yarn
以上步骤都执行完成后,用hadoop用户登录到mr5机器依次执行:
hdfsnamenode -format
start-dfs.sh
start-yarn.sh
通过jps命令查看:
mr5成功启动了NameNode、ResourceManager、SecondaryNameNode进程;
mr6、mr7、mr8成功启动了DataNode、NodeManager进程。
(6)验证成功状态
通过以下方式查看节点的健康状态和作业的执行情况:
浏览器访问(本地需要配置hosts)



5、hive-0.9.0-cdh4.1.2安装

(1)安装包准备
使用hadoop用户上传hive-0.9.0-cdh4.1.2到mr5机器的/home/hadoop/目录下并解压:
tar zxvf hive-0.9.0-cdh4.1.2

(2)配置环境变量
在.bash_profile添加环境变量:
exportHIVE_HOME=/home/hadoop/hive-0.9.0-cdh4.1.2
exportPATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${HIVE_HOME}/bin
exportHIVE_CONF_DIR=$HIVE_HOME/conf
exportHIVE_LIB=$HIVE_HOME/lib

添加完后执行以下命令使得环境变量生效:
..bash_profile

(3)修改配置文件
修改hive配置文件(配置文件目录:hive-0.9.0-cdh4.1.2/conf/)
在hive-0.9.0-cdh4.1.2/conf/目录下新建hive-site.xml文件,并添加以下配置信息:


hive.metastore.local
true

javax.jdo.option.ConnectionURL
jdbc:mysql://10.28.169.61:3306/hive_impala?createDatabaseIfNotExist=true

javax.jdo.option.ConnectionDriverName
com.mysql.jdbc.Driver


javax.jdo.option.ConnectionUserName
hadoop

javax.jdo.option.ConnectionPassword
123456

hive.security.authorization.enabled
false

hive.security.authorization.createtable.owner.grants
ALL

hive.querylog.location
${user.home}/hive-logs/querylog



(4)验证成功状态
完成以上步骤之后,验证hive安装是否成功
在mr5命令行执行hive,并输入”show tables;”,出现以下提示,说明hive安装成功:
>hive
hive>show tables;
OK
Time taken:18.952 seconds
hive>

6、impala安装
说明:
(1)、以下1、2、3、4步是在root用户分别在mr5、mr6、mr7、mr8下执行
(2)、以下第5步是在hadoop用户下执行
(1)安装依赖包:
安装mysql-connector-java:
yum install mysql-connector-java
安装bigtop
rpm -ivh bigtop-utils-0.4+300-1.cdh4.0.1.p0.1.el6.noarch.rpm
安装libevent
rpm -ivhlibevent-1.4.13-4.el6.x86_64.rpm
如存在其他需要安装的依赖包,可以到以下链接:
http://mirror.bit.edu.cn/centos/6.3/os/x86_64/Packages/进行下载。
(2)安装impala的rpm,分别执行
rpm -ivh impala-0.3-1.p0.366.el6.x86_64.rpm
rpm -ivh impala-server-0.3-1.p0.366.el6.x86_64.rpm
rpm -ivh impala-debuginfo-0.3-1.p0.366.el6.x86_64.rpm
rpm -ivh impala-shell-0.3-1.p0.366.el6.x86_64.rpm
(3)找到impala的安装目录
完成第1步和第2步后,通过以下命令:
find / -name impala
输出:
/usr/lib/debug/usr/lib/impala
/usr/lib/impala
/var/run/impala
/var/log/impala
/var/lib/alternatives/impala
/etc/default/impala
/etc/alternatives/impala

找到impala的安装目录:/usr/lib/impala
(4)配置Impala
在Impala安装目录/usr/lib/impala下创建conf,将hadoop中的conf文件夹下的core-site.xml、hdfs-site.xml、hive中的conf文件夹下的hive-site.xml复制到其中。
在core-site.xml文件中添加如下内容:

dfs.client.read.shortcircuit
true



dfs.client.read.shortcircuit.skip.checksum
false

在hadoop和impala的hdfs-site.xml文件中添加如下内容并重启hadoop和impala:

dfs.datanode.data.dir.perm
755



dfs.block.local-path-access.user
hadoop



dfs.datanode.hdfs-blocks-metadata.enabled
true

(5)启动服务
(1)、在mr5启动Impala state store,命令如下:
>GLOG_v=1 nohup statestored-state_store_port=24000 &
如果statestore正常启动,可以在/tmp/statestored.INFO查看。如果出现异常,可以查看/tmp/statestored.ERROR定位错误信息。

(2)、在mr6、mr7、mr8启动Impalad,命令如下:
mr6:
>GLOG_v=1 nohup impalad -state_store_host=mr5-nn=mr5 -nn_port=9000 -hostname=mr6 -ipaddress=10.28.169.113 &
mr7:
>GLOG_v=1 nohup impalad -state_store_host=mr5-nn=mr5 -nn_port=9000 -hostname=mr7 -ipaddress=10.28.169.114 &
mr8:
>GLOG_v=1 nohup impalad -state_store_host=mr5-nn=mr5 -nn_port=9000 -hostname=mr8 -ipaddress=10.28.169.115 &
如果impalad正常启动,可以在/tmp/impalad.INFO查看。如果出现异常,可以查看/tmp/ impalad.ERROR定位错误信息。

(6)使用shell
使用impala-shell启动Impala Shell,分别连接各Impalad主机(mr6、mr7、mr8),刷新元数据,之后就可以执行shell命令。相关的命令如下(可以在任意节点执行):
>impala-shell
[Not connected]> connect mr6:21000
[mr6:21000] >refresh
[mr6:21000]>connectmr7:21000
[mr7:21000]>refresh
[mr7:21000]>connectmr8:21000
[mr8:21000]>refresh
(7)验证成功状态
使用impala-shell启动Impala Shell,分别连接各Impalad主机,刷新元数据,之后就可以执行shell命令。相关的命令如下(可以在任意节点执行):
>impala-shell
[Not connected]> connect mr6:21000
[mr6:21000]>refresh
[mr6:21000] >show databases
default
[mr6:21000] >
出现以上提示信息,说明安装成功。

  一、Impala简介
  Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。
  二、Impala安装
  1.安装要求
  (1)软件要求

  Red Hat Enterprise Linux (RHEL)/CentOS 6.2 (64-bit)
  CDH 4.1.0 or later
  Hive
  MySQL

  (2)硬件要求
  在Join查询过程中需要将数据集加载内存中进行计算,因此对安装Impalad的内存要求较高。
  2、安装准备

  (1)操作系统版本查看
  >more/etc/issue
  CentOSrelease 6.2 (Final)
  Kernel on an \m
  (2)机器准备
  10.28.169.112mr5
  10.28.169.113mr6
  10.28.169.114mr7
  10.28.169.115mr8

  各机器安装角色
  mr5:NameNode、ResourceManager、SecondaryNameNode、Hive、impala-state-store
  mr6、mr7、mr8:DataNode、NodeManager、impalad
  (3)用户准备
  在各个机器上新建用户hadoop,并打通ssh
  (4)软件准备
  到cloudera官网下载:
  Hadoop:
  hadoop-2.0.0-cdh4.1.2.tar.gz
  hive:
  hive-0.9.0-cdh4.1.2.tar.gz
  impala:
  impala-0.3-1.p0.366.el6.x86_64.rpm
  impala-debuginfo-0.3-1.p0.366.el6.x86_64.rpm
  impala-server-0.3-1.p0.366.el6.x86_64.rpm
  impala-shell-0.3-1.p0.366.el6.x86_64.rpm
  impala依赖包下载:

  4、hadoop-2.0.0-cdh4.1.2安装

  (1)安装包准备
  hadoop用户登录到mr5机器,将hadoop-2.0.0-cdh4.1.2.tar.gz上传到/home/hadoop/目录下并解压:
  tar zxvf hadoop-2.0.0-cdh4.1.2.tar.gz
  (2)配置环境变量
  修改mr5机器hadoop用户主目录/home/hadoop/下的.bash_profile环境变量:
  exportJAVA_HOME=/usr/jdk1.6.0_30
  exportJAVA_BIN=${JAVA_HOME}/bin
  exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
  export JAVA_OPTS="-Djava.library.path=/usr/local/lib-server -Xms1024m -Xmx2048m -XX:MaxPermSize=256m -Djava.awt.headless=true-Dsun.net.client.defaultReadTimeout=600
  00-Djmagick.systemclassloader=no -Dnetworkaddress.cache.ttl=300-Dsun.net.inetaddr.ttl=300"
  exportHADOOP_HOME=/home/hadoop/hadoop-2.0.0-cdh4.1.2
  exportHADOOP_PREFIX=$HADOOP_HOME
  exportHADOOP_MAPRED_HOME=${HADOOP_HOME}
  exportHADOOP_COMMON_HOME=${HADOOP_HOME}
  exportHADOOP_HDFS_HOME=${HADOOP_HOME}
  exportHADOOP_YARN_HOME=${HADOOP_HOME}
  export PATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
  exportJAVA_HOME JAVA_BIN PATH CLASSPATH JAVA_OPTS
  exportHADOOP_LIB=${HADOOP_HOME}/lib
  exportHADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
  (3)修改配置文件
  在机器mr5上hadoop用户登录修改hadoop的配置文件(配置文件目录:hadoop-2.0.0-cdh4.1.2/etc/hadoop)
  (1)、slaves :
  添加以下节点
  mr6
  mr7
  mr8

  (2)、hadoop-env.sh :
  增加以下环境变量
  exportJAVA_HOME=/usr/jdk1.6.0_30
  exportHADOOP_HOME=/home/hadoop/hadoop-2.0.0-cdh4.1.2
  exportHADOOP_PREFIX=${HADOOP_HOME}
  export HADOOP_MAPRED_HOME=${HADOOP_HOME}
  exportHADOOP_COMMON_HOME=${HADOOP_HOME}
  exportHADOOP_HDFS_HOME=${HADOOP_HOME}
  exportHADOOP_YARN_HOME=${HADOOP_HOME}
  exportPATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
  exportJAVA_HOME JAVA_BIN PATH CLASSPATH JAVA_OPTS
  exportHADOOP_LIB=${HADOOP_HOME}/lib
  exportHADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

  (3)、core-site.xml :

  fs.default.name
  hdfs://mr5:9000
  The name of the defaultfile system.Either the literal string "local" or a host:port forNDFS.
  true

  io.native.lib.available
  true

  hadoop.tmp.dir
  /home/hadoop/tmp
  A base for other temporarydirectories.

  (4)、hdfs-site.xml :

  dfs.namenode.name.dir
  file:/home/hadoop/dfsdata/name
  Determines where on thelocal filesystem the DFS name node should store the name table.If this is acomma-delimited list of directories,then name table is replicated in all of thedirectories,for redundancy.
  true

  dfs.datanode.data.dir
  file:/home/hadoop/dfsdata/data
  Determines where on thelocal filesystem an DFS data node should store its blocks.If this is acomma-delimited list of directories,then data will be stored in all nameddirectories,typically on different devices.Directories that do not exist areignored.
  
  true

  dfs.replication
  3

  dfs.permission
  false

  (5)、mapred-site.xml:

  mapreduce.framework.name
  yarn

  mapreduce.job.tracker
  hdfs://mr5:9001
  true

  mapreduce.task.io.sort.mb
  512

  mapreduce.task.io.sort.factor
  100

  mapreduce.reduce.shuffle.parallelcopies
  50

  mapreduce.cluster.temp.dir
  file:/home/hadoop/mapreddata/system
  true

  mapreduce.cluster.local.dir
  file:/home/hadoop/mapreddata/local
  true

  (6)、yarn-env.sh :
  增加以下环境变量
  exportJAVA_HOME=/usr/jdk1.6.0_30
  exportHADOOP_HOME=/home/hadoop/hadoop-2.0.0-cdh4.1.2
  exportHADOOP_PREFIX=${HADOOP_HOME}
  exportHADOOP_MAPRED_HOME=${HADOOP_HOME}
  exportHADOOP_COMMON_HOME=${HADOOP_HOME}
  exportHADOOP_HDFS_HOME=${HADOOP_HOME}
  exportHADOOP_YARN_HOME=${HADOOP_HOME}
  exportPATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
  exportJAVA_HOME JAVA_BIN PATH CLASSPATH JAVA_OPTS
  exportHADOOP_LIB=${HADOOP_HOME}/lib
  exportHADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

  (7)、yarn-site.xml:

  yarn.resourcemanager.address
  mr5:8080

  yarn.resourcemanager.scheduler.address
  mr5:8081

  yarn.resourcemanager.resource-tracker.address
  mr5:8082

  yarn.nodemanager.aux-services
  mapreduce.shuffle

  yarn.nodemanager.aux-services.mapreduce.shuffle.class
  org.apache.hadoop.mapred.ShuffleHandler

  yarn.nodemanager.local-dirs
  file:/home/hadoop/nmdata/local
  thelocal directories used by the nodemanager

  yarn.nodemanager.log-dirs
  file:/home/hadoop/nmdata/log
  thedirectories used by Nodemanagers as log directories

  (4)拷贝到其他节点
  (1)、在mr5上配置完第2步和第3步后,压缩hadoop-2.0.0-cdh4.1.2
  rm hadoop-2.0.0-cdh4.1.2.tar.gz
  tar zcvf hadoop-2.0.0-cdh4.1.2.tar.gz hadoop-2.0.0-cdh4.1.2

  然后将hadoop-2.0.0-cdh4.1.2.tar.gz远程拷贝到mr6、mr7、mr8机器上
  scp/home/hadoop/hadoop-2.0.0-cdh4.1.2.tar.gz hadoop@mr6:/home/hadoop/
  scp/home/hadoop/hadoop-2.0.0-cdh4.1.2.tar.gz hadoop@mr7:/home/hadoop/
  scp/home/hadoop/hadoop-2.0.0-cdh4.1.2.tar.gz hadoop@mr8:/home/hadoop/

  (2)、将mr5机器上hadoop用户的配置环境的文件.bash_profile远程拷贝到mr6、mr7、mr8机器上
  scp/home/hadoop/.bash_profile hadoop@mr6:/home/hadoop/
  scp/home/hadoop/.bash_profile hadoop@mr7:/home/hadoop/
  scp/home/hadoop/.bash_profile hadoop@mr8:/home/hadoop/
  拷贝完成后,在mr5、mr6、mr7、mr8机器的/home/hadoop/目录下执行
  source.bash_profile
  使得环境变量生效
  (5)启动hdfs和yarn
  以上步骤都执行完成后,用hadoop用户登录到mr5机器依次执行:
  hdfsnamenode -format
  start-dfs.sh
  start-yarn.sh
  通过jps命令查看:
  mr5成功启动了NameNode、ResourceManager、SecondaryNameNode进程;
  mr6、mr7、mr8成功启动了DataNode、NodeManager进程。
  (6)验证成功状态
  通过以下方式查看节点的健康状态和作业的执行情况:
  浏览器访问(本地需要配置hosts)

  5、hive-0.9.0-cdh4.1.2安装

  (1)安装包准备
  使用hadoop用户上传hive-0.9.0-cdh4.1.2到mr5机器的/home/hadoop/目录下并解压:
  tar zxvf hive-0.9.0-cdh4.1.2

  (2)配置环境变量
  在.bash_profile添加环境变量:
  exportHIVE_HOME=/home/hadoop/hive-0.9.0-cdh4.1.2
  exportPATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${HIVE_HOME}/bin
  exportHIVE_CONF_DIR=$HIVE_HOME/conf
  exportHIVE_LIB=$HIVE_HOME/lib

  添加完后执行以下命令使得环境变量生效:
  ..bash_profile

  (3)修改配置文件
  修改hive配置文件(配置文件目录:hive-0.9.0-cdh4.1.2/conf/)
  在hive-0.9.0-cdh4.1.2/conf/目录下新建hive-site.xml文件,并添加以下配置信息:

  hive.metastore.local
  true
  
  javax.jdo.option.ConnectionURL
  jdbc:mysql://10.28.169.61:3306/hive_impala?createDatabaseIfNotExist=true
  
  javax.jdo.option.ConnectionDriverName
  com.mysql.jdbc.Driver

  javax.jdo.option.ConnectionUserName
  hadoop
  
  javax.jdo.option.ConnectionPassword
  123456
  
  hive.security.authorization.enabled
  false
  
  hive.security.authorization.createtable.owner.grants
  ALL
  
  hive.querylog.location
  ${user.home}/hive-logs/querylog

一、Impala简介
Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。
二、Impala安装
1.安装要求
(1)软件要求

Red Hat Enterprise Linux (RHEL)/CentOS 6.2 (64-bit)
CDH 4.1.0 or later
Hive
MySQL

(2)硬件要求
在Join查询过程中需要将数据集加载内存中进行计算,因此对安装Impalad的内存要求较高。
2、安装准备

(1)操作系统版本查看
>more/etc/issue
CentOSrelease 6.2 (Final)
Kernel \ron an \m
(2)机器准备
10.28.169.112mr5
10.28.169.113mr6
10.28.169.114mr7
10.28.169.115mr8

各机器安装角色
mr5:NameNode、ResourceManager、SecondaryNameNode、Hive、impala-state-store
mr6、mr7、mr8:DataNode、NodeManager、impalad
(3)用户准备
在各个机器上新建用户hadoop,并打通ssh
(4)软件准备
到cloudera官网下载:
Hadoop:
hadoop-2.0.0-cdh4.1.2.tar.gz
hive:
hive-0.9.0-cdh4.1.2.tar.gz
impala:
impala-0.3-1.p0.366.el6.x86_64.rpm
impala-debuginfo-0.3-1.p0.366.el6.x86_64.rpm
impala-server-0.3-1.p0.366.el6.x86_64.rpm
impala-shell-0.3-1.p0.366.el6.x86_64.rpm
impala依赖包下载:

4、hadoop-2.0.0-cdh4.1.2安装

(1)安装包准备
hadoop用户登录到mr5机器,将hadoop-2.0.0-cdh4.1.2.tar.gz上传到/home/hadoop/目录下并解压:
tar zxvf hadoop-2.0.0-cdh4.1.2.tar.gz
(2)配置环境变量
修改mr5机器hadoop用户主目录/home/hadoop/下的.bash_profile环境变量:
exportJAVA_HOME=/usr/jdk1.6.0_30
exportJAVA_BIN=${JAVA_HOME}/bin
exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_OPTS="-Djava.library.path=/usr/local/lib-server -Xms1024m -Xmx2048m -XX:MaxPermSize=256m -Djava.awt.headless=true-Dsun.net.client.defaultReadTimeout=600
00-Djmagick.systemclassloader=no -Dnetworkaddress.cache.ttl=300-Dsun.net.inetaddr.ttl=300"
exportHADOOP_HOME=/home/hadoop/hadoop-2.0.0-cdh4.1.2
exportHADOOP_PREFIX=$HADOOP_HOME
exportHADOOP_MAPRED_HOME=${HADOOP_HOME}
exportHADOOP_COMMON_HOME=${HADOOP_HOME}
exportHADOOP_HDFS_HOME=${HADOOP_HOME}
exportHADOOP_YARN_HOME=${HADOOP_HOME}
export PATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
exportJAVA_HOME JAVA_BIN PATH CLASSPATH JAVA_OPTS
exportHADOOP_LIB=${HADOOP_HOME}/lib
exportHADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
(3)修改配置文件
在机器mr5上hadoop用户登录修改hadoop的配置文件(配置文件目录:hadoop-2.0.0-cdh4.1.2/etc/hadoop)
(1)、slaves :
添加以下节点
mr6
mr7
mr8

(2)、hadoop-env.sh :
增加以下环境变量
exportJAVA_HOME=/usr/jdk1.6.0_30
exportHADOOP_HOME=/home/hadoop/hadoop-2.0.0-cdh4.1.2
exportHADOOP_PREFIX=${HADOOP_HOME}
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
exportHADOOP_COMMON_HOME=${HADOOP_HOME}
exportHADOOP_HDFS_HOME=${HADOOP_HOME}
exportHADOOP_YARN_HOME=${HADOOP_HOME}
exportPATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
exportJAVA_HOME JAVA_BIN PATH CLASSPATH JAVA_OPTS
exportHADOOP_LIB=${HADOOP_HOME}/lib
exportHADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

(3)、core-site.xml :

fs.default.name
hdfs://mr5:9000
The name of the defaultfile system.Either the literal string "local" or a host:port forNDFS.
true

io.native.lib.available
true

hadoop.tmp.dir
/home/hadoop/tmp
A base for other temporarydirectories.

(4)、hdfs-site.xml :

dfs.namenode.name.dir
file:/home/hadoop/dfsdata/name
Determines where on thelocal filesystem the DFS name node should store the name table.If this is acomma-delimited list of directories,then name table is replicated in all of thedirectories,for redundancy.
true

dfs.datanode.data.dir
file:/home/hadoop/dfsdata/data
Determines where on thelocal filesystem an DFS data node should store its blocks.If this is acomma-delimited list of directories,then data will be stored in all nameddirectories,typically on different devices.Directories that do not exist areignored.

true

dfs.replication
3

dfs.permission
false

(5)、mapred-site.xml:

mapreduce.framework.name
yarn

mapreduce.job.tracker
hdfs://mr5:9001
true

mapreduce.task.io.sort.mb
512

mapreduce.task.io.sort.factor
100

mapreduce.reduce.shuffle.parallelcopies
50

mapreduce.cluster.temp.dir
file:/home/hadoop/mapreddata/system
true

mapreduce.cluster.local.dir
file:/home/hadoop/mapreddata/local
true

(6)、yarn-env.sh :
增加以下环境变量
exportJAVA_HOME=/usr/jdk1.6.0_30
exportHADOOP_HOME=/home/hadoop/hadoop-2.0.0-cdh4.1.2
exportHADOOP_PREFIX=${HADOOP_HOME}
exportHADOOP_MAPRED_HOME=${HADOOP_HOME}
exportHADOOP_COMMON_HOME=${HADOOP_HOME}
exportHADOOP_HDFS_HOME=${HADOOP_HOME}
exportHADOOP_YARN_HOME=${HADOOP_HOME}
exportPATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
exportJAVA_HOME JAVA_BIN PATH CLASSPATH JAVA_OPTS
exportHADOOP_LIB=${HADOOP_HOME}/lib
exportHADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

(7)、yarn-site.xml:

yarn.resourcemanager.address
mr5:8080

yarn.resourcemanager.scheduler.address
mr5:8081

yarn.resourcemanager.resource-tracker.address
mr5:8082

yarn.nodemanager.aux-services
mapreduce.shuffle

yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler

yarn.nodemanager.local-dirs
file:/home/hadoop/nmdata/local
thelocal directories used by the nodemanager

yarn.nodemanager.log-dirs
file:/home/hadoop/nmdata/log
thedirectories used by Nodemanagers as log directories

(4)拷贝到其他节点
(1)、在mr5上配置完第2步和第3步后,压缩hadoop-2.0.0-cdh4.1.2
rm hadoop-2.0.0-cdh4.1.2.tar.gz
tar zcvf hadoop-2.0.0-cdh4.1.2.tar.gz hadoop-2.0.0-cdh4.1.2

然后将hadoop-2.0.0-cdh4.1.2.tar.gz远程拷贝到mr6、mr7、mr8机器上
scp/home/hadoop/hadoop-2.0.0-cdh4.1.2.tar.gz hadoop@mr6:/home/hadoop/
scp/home/hadoop/hadoop-2.0.0-cdh4.1.2.tar.gz hadoop@mr7:/home/hadoop/
scp/home/hadoop/hadoop-2.0.0-cdh4.1.2.tar.gz hadoop@mr8:/home/hadoop/

(2)、将mr5机器上hadoop用户的配置环境的文件.bash_profile远程拷贝到mr6、mr7、mr8机器上
scp/home/hadoop/.bash_profile hadoop@mr6:/home/hadoop/
scp/home/hadoop/.bash_profile hadoop@mr7:/home/hadoop/
scp/home/hadoop/.bash_profile hadoop@mr8:/home/hadoop/
拷贝完成后,在mr5、mr6、mr7、mr8机器的/home/hadoop/目录下执行
source.bash_profile
使得环境变量生效
(5)启动hdfs和yarn
以上步骤都执行完成后,用hadoop用户登录到mr5机器依次执行:
hdfsnamenode -format
start-dfs.sh
start-yarn.sh
通过jps命令查看:
mr5成功启动了NameNode、ResourceManager、SecondaryNameNode进程;
mr6、mr7、mr8成功启动了DataNode、NodeManager进程。
(6)验证成功状态
通过以下方式查看节点的健康状态和作业的执行情况:
浏览器访问(本地需要配置hosts)

5、hive-0.9.0-cdh4.1.2安装

(1)安装包准备
使用hadoop用户上传hive-0.9.0-cdh4.1.2到mr5机器的/home/hadoop/目录下并解压:
tar zxvf hive-0.9.0-cdh4.1.2

(2)配置环境变量
在.bash_profile添加环境变量:
exportHIVE_HOME=/home/hadoop/hive-0.9.0-cdh4.1.2
exportPATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${HIVE_HOME}/bin
exportHIVE_CONF_DIR=$HIVE_HOME/conf
exportHIVE_LIB=$HIVE_HOME/lib

添加完后执行以下命令使得环境变量生效:
..bash_profile

(3)修改配置文件
修改hive配置文件(配置文件目录:hive-0.9.0-cdh4.1.2/conf/)
在hive-0.9.0-cdh4.1.2/conf/目录下新建hive-site.xml文件,并添加以下配置信息:

hive.metastore.local
true

javax.jdo.option.ConnectionURL
jdbc:mysql://10.28.169.61:3306/hive_impala?createDatabaseIfNotExist=true

javax.jdo.option.ConnectionDriverName
com.mysql.jdbc.Driver

javax.jdo.option.ConnectionUserName
hadoop

javax.jdo.option.ConnectionPassword
123456

hive.security.authorization.enabled
false

hive.security.authorization.createtable.owner.grants
ALL

hive.querylog.location
${user.home}/hive-logs/querylog

(4)验证成功状态
完成以上步骤之后,验证hive安装是否成功
在mr5命令行执行hive,并输入”show tables;”,出现以下提示,说明hive安装成功:
>hive
hive>show tables;
OK
Time taken:18.952 seconds
hive>

6、impala安装
说明:
(1)、以下1、2、3、4步是在root用户分别在mr5、mr6、mr7、mr8下执行
(2)、以下第5步是在hadoop用户下执行
(1)安装依赖包:
安装mysql-connector-java:
yum install mysql-connector-java
安装bigtop
rpm -ivh bigtop-utils-0.4+300-1.cdh4.0.1.p0.1.el6.noarch.rpm
安装libevent
rpm -ivhlibevent-1.4.13-4.el6.x86_64.rpm
如存在其他需要安装的依赖包,可以到以下链接:
http://mirror.bit.edu.cn/centos/6.3/os/x86_64/Packages/进行下载。
(2)安装impala的rpm,分别执行
rpm -ivh impala-0.3-1.p0.366.el6.x86_64.rpm
rpm -ivh impala-server-0.3-1.p0.366.el6.x86_64.rpm
rpm -ivh impala-debuginfo-0.3-1.p0.366.el6.x86_64.rpm
rpm -ivh impala-shell-0.3-1.p0.366.el6.x86_64.rpm
(3)找到impala的安装目录
完成第1步和第2步后,通过以下命令:
find / -name impala
输出:
/usr/lib/debug/usr/lib/impala
/usr/lib/impala
/var/run/impala
/var/log/impala
/var/lib/alternatives/impala
/etc/default/impala
/etc/alternatives/impala

找到impala的安装目录:/usr/lib/impala
(4)配置Impala
在Impala安装目录/usr/lib/impala下创建conf,将hadoop中的conf文件夹下的core-site.xml、hdfs-site.xml、hive中的conf文件夹下的hive-site.xml复制到其中。
在core-site.xml文件中添加如下内容:

dfs.client.read.shortcircuit
true

dfs.client.read.shortcircuit.skip.checksum
false

在hadoop和impala的hdfs-site.xml文件中添加如下内容并重启hadoop和impala:

dfs.datanode.data.dir.perm
755

dfs.block.local-path-access.user
hadoop

dfs.datanode.hdfs-blocks-metadata.enabled
true

(5)启动服务
(1)、在mr5启动Impala state store,命令如下:
>GLOG_v=1 nohup statestored-state_store_port=24000 &
如果statestore正常启动,可以在/tmp/statestored.INFO查看。如果出现异常,可以查看/tmp/statestored.ERROR定位错误信息。

(2)、在mr6、mr7、mr8启动Impalad,命令如下:
mr6:
>GLOG_v=1 nohup impalad -state_store_host=mr5-nn=mr5 -nn_port=9000 -hostname=mr6 -ipaddress=10.28.169.113 &
mr7:
>GLOG_v=1 nohup impalad -state_store_host=mr5-nn=mr5 -nn_port=9000 -hostname=mr7 -ipaddress=10.28.169.114 &
mr8:
>GLOG_v=1 nohup impalad -state_store_host=mr5-nn=mr5 -nn_port=9000 -hostname=mr8 -ipaddress=10.28.169.115 &
如果impalad正常启动,可以在/tmp/impalad.INFO查看。如果出现异常,可以查看/tmp/ impalad.ERROR定位错误信息。

(6)使用shell
使用impala-shell启动Impala Shell,分别连接各Impalad主机(mr6、mr7、mr8),刷新元数据,之后就可以执行shell命令。相关的命令如下(可以在任意节点执行):
>impala-shell
[Not connected]> connect mr6:21000
[mr6:21000] >refresh
[mr6:21000]>connectmr7:21000
[mr7:21000]>refresh
[mr7:21000]>connectmr8:21000
[mr8:21000]>refresh
(7)验证成功状态
使用impala-shell启动Impala Shell,分别连接各Impalad主机,刷新元数据,之后就可以执行shell命令。相关的命令如下(可以在任意节点执行):
>impala-shell
[Not connected]> connect mr6:21000
[mr6:21000]>refresh
[mr6:21000] >show databases
default
[mr6:21000] >
出现以上提示信息,说明安装成功。


亚洲龙touring是什么意思
亚洲龙touring是什么 用亚洲龙轮胎旅行意味着转弯,转弯。代表轮胎的旋转。丰田的豪车亚洲龙,英文名Avalon。是丰田的旗舰产品。阿瓦隆汽车配备高级设备,可安装六人座椅。阿瓦隆是比丰田凯美瑞更高级的产品。这款车在设计过程中被称为impala(中南部非洲的一款Impala,姿态优雅,跳跃能力出色),丰田希望在大型...

怎么把impala表导入kudu
可以通过映射表方式实现。下面说得略细,需要耐心看并做参考:首先要知道目前(2017.05.04)kudu没有timestamp与decimal类型,需要用其它类型代替,比如timestamp可以用长bigint代替,decimal可以用double型代替。如果想在kudu中创建一个新表,并将数据导入到这个新表中,那么比较简单的方式是通过impala建立...

1967年的雪弗兰IMPALA在国内用国内的油能跑么?懂车的人进
能跑 是汽油机吧 我可能有点理解楼主的意思啊 车是1967年的嘛?那个时代的汽油 也就在90号左右 不会比它好到哪里去 那时候的油的最大区别就是汽油含有杂质 而且铅含量比较高 纯度没现在高 但是还是一样的~~~辛烷值基本是汽油的稳定性 目前市场上汽油有90、93、95、97等标号,这些数字代表汽油的...

09伊兰特怎么样
雪佛兰伊兰特(Chevrolet Impala)是一款由美国汽车制造商雪佛兰公司生产的中型轿车,2009款伊兰特是该车型的第十代,时至今日仍在销售中。09伊兰特性能优异,综合实力得到了消费者的一致好评,是多数消费者最喜欢的车型之一。09伊兰特安全性能 09伊兰特配备了全新的安全系统,具有卓越的安全性能。它配备了安全...

impala中connect by prior怎么写
connect by中的条件就表示了父子之间的连接关系,比如 connect by id=prior pidconnect by [prior] id=parentid 这部分是用来指明oracle在查找数据时以怎样的一种关系去查找;比如说查找第二层的数据时用第一层数据的id去跟表里面记录的parentid字段进行匹配,如果这个条件成立那么查找出来的数据就是第...

impalashell的用法 shell脚本怎么写
我们可以使用Impala Shell来运行查询任务。当然首先服务端的Impala必须先运行起来。(1)运行Impala服务端 1.运行statestored GLOG_v=1 nohup \/usr\/bin\/statestored -state_store_port=24000 2.运行impalad GLOG_v=1 impalad -state_store_host=slaver1 -state_store_port=24000 -ipaddress=*** -...

这是什么车
楼主您好!这是美国通用旗下 1967款 雪弗兰 英帕拉 双门硬顶车型(Chevrolet Impala 2 door hardtop)

impala no backends configured是什么原因造成
因为这些车辆的前座椅安全带可能无法正确固定。昨天也就是10月15日,通用汽车公司宣布,将召回322,409辆2009与2010年款的雪佛莱Impala轿车。

雪佛兰impala什么时候上市
雪佛兰impala应该很快就能上市的了,去当地的4S店咨询一下看看。

impala中date用什么类型
5 Function 指数据库内置的function,不讨论UDF。另外,操作符都不比较了,区别不大。5.1 数学函数 功能 Oracle Hive Impala ABS 绝对值,有 有 有 SIN\/SINH\/ASIN\/COS\/COSH\/ACOS\/TAN\/TANH\/ATAN\/ATAN2 三角函数 其中ATAN2接受两个参数(二维平面中的坐标)没有SINH\/COSH\/TANH\/ATA...

龙岩市19380375568: 如何在Apache hadoop2.2.0下面部署impala - CSDN论坛 -
陆儿诺莱: 安装impala这里介绍使用rpm包安装的方式(需有root或sudo权限),基于源码包安装的方式待后续折腾.1.2.1 安装前需知impala能使用的内存无法超过系统的硬件可用内存(GA版,查询需要的内存如果超出硬件内存,则查询将失败),对...

龙岩市19380375568: impalashell的用法 shell脚本怎么写 -
陆儿诺莱: 我们可以使用Impala Shell来运行查询任务.当然首先服务端的Impala必须先运行起来.(1)运行Impala服务端1.运行statestored GLOG_v=1 nohup /usr/bin/statestored -state_store_port=240002.运行impalad GLOG_v=1 impalad -state_store_host=...

龙岩市19380375568: Cloudera CDH Impala本地通过Parcel安装配置详解及什么是Parcel -
陆儿诺莱: 1、问题的描述:当你利用ClouderaManager部署了CDH的集群后,也许随着你的业务需求,你需要对你的就去哪做一些优化,或者扩展之类的,这个时候你可能需要下载安装一些组件.例如,我最近在阅读Cloudera官方文档的是,看到有一节...

龙岩市19380375568: 做大数据分析系统Hadoop需要用哪些软件 -
陆儿诺莱: 1、ApacheMesos 代码托管地址:ApacheSVN Mesos提供了高效、跨分布式应用程序和框架的资源隔离和共享,支持Hadoop、MPI、Hypertable、Spark等.Mesos是Apache孵化器中的一个开源项目,使用ZooKeeper实现容错复制,使用...

龙岩市19380375568: impala 怎么读取hdfs -
陆儿诺莱: 如果和数据block不在同一个host上,那么就是使用HDFSDataTransaferProtocol(不是正式的命名,意会即可)来读,也就是一个二进制协议走TCP链接.如果是在同一个host上,那么是利用了HDFS中"short-circuit local reads"技术.简单来说,从DataNode那边获取到所需数据的Meta信息,然后直接通过系统调用open/read来读取.

龙岩市19380375568: impala为什么比spark快 -
陆儿诺莱: 应该不会,Impala是相当专注于传统企业客户和OLAP和数据仓库工作负载.Shark支持传统OLAP.比较:一、总体上 Shark扩展了Apache Hive,大大加快在内存和磁盘上的查询.而Impala是企业级数据仓...

龙岩市19380375568: 安装西门子PLC编程软件,无法定位程序输入点什么回事? -
陆儿诺莱: 西门子PLC输入点设定应该从I0.0开始,顺序到I0.1、I0.2......到I0.7,8个点一组,没有0.8以上的点,第二个模块用I1.0、1.1、1.2.....到I1.7,以此类推,内部寄存器M的使用也相同

龙岩市19380375568: 怎样将文本文件导入impala中的分区表中 -
陆儿诺莱: 1、在impala中建立无分区的表,例如gxzl_kgx_drw_NP create table if not exists gxzl_kgx_drw_NP (mat_track_no string,materialcode string,id double,defectid double,mainno string,unitno string,side string,x double,y double,defectclass string,...

龙岩市19380375568: 访问限制密码怎么设置 - 启用访问限制密码是多少
陆儿诺莱: 1. 启用访问限制密码是多少打开ipadpro设置,进入“通用”,找到“访问限制”这... 即可成功安装、删除和购买应用程序.2. 访问限制密码默认是什么1、找到要设置密码...

龙岩市19380375568: windows下怎么安装mysql数据库 -
陆儿诺莱: 用MSI安装包安装 根据自己的操作系统下载对应的32位或64位安装包.按如下步骤操作: 第一步: 安装许可 双击安装文件,在如下图所示界面中勾选“I accept the license terms”,点击“next”. 第二步: 选择设置类型 如下图所示,有5种设...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网