怎么搭建两个hadoop集群的测试环境

作者&投稿:曲贞 (若有异议请与网页底部的电邮联系)
怎样在本地搭建hadoop测试环境~

namenode节点配置
conf/core-site.xml:


fs.default.name
hdfs://localhost:9000


hdfs测试环境配置
conf/hdfs-site.xml: 数据块不需要冗余


dfs.replication
1


job-tracker配置
conf/mapred-site.xml:


mapred.job.tracker
localhost:9001


免密码ssh登录配置

$ ssh localhost
# 若不行, 则进行以下配置
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

初始化HDFS, 启动hadoop


$ bin/hadoop namenode -format
$ bin/start-all.sh
# 所有运行日志都在 ${HADOOP_LOG_DIR} 目录, (默认是 ${HADOOP_HOME}/logs).

资源下载
1、JDK下载: 下载链接 2、hadoop: 下载链接 3、下载完成后验证一下下载,将计算的MD5值与官网的进行对比已验证安装包的准确性:
md5sum ./hadoop-2.6.*.tar.gz | tr "a-z" "A-Z" # 计算md5值,并转化为大写,方便比较1
一、创建Hadoop用户
创建hadoop用户,并分配以用户名为家目录/home/hadoop,并将其加入到sudo用户组,创建好用户之后,以hadoop用户登录:
sudo useradd -m hadoop -s /bin/bash sudo adduser hadoop sudosudo passwd hadoop # 设置hadoop用户密码123
二、安装JDK、Hadoop及配置环境变量
安装,解压JDK到/usr/lib/java/路径下,Hadoop到/usr/local/etc/hadoop/路径下:
tar zxf ./hadoop-2.6.*.tar.gzmv ./hadoop-2.6.* /usr/local/etc/hadoop # 将 /usr/local/etc/hadoop作为Hadoop的安装路径12
解压完成之后,可验证hadoop的可用性:
cd /usr/local/etc/hadoop./bin/hadoop version # 查看hadoop的版本信息12
若在此处,会出现类似以下的错误信息,则很有可能是该安装包有问题。
Error: Could not find or load main class org.apache.hadoop.util.VersionInfo1
配置环境,编辑“/etc/profile”文件,在其后添加如下信息:
export HADOOP_HOME=/usr/local/etc/hadoopexport JAVA_HOME=/usr/lib/java/jdk1.8.0_45export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=$PATH:${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin12345
使配置的变量生效:
source /etc/profile1
三、测试一下
在此我们可以运行一个简单的官方Demo:
cd `echo $HADOOP_HOME` # 到hadoop安装路径mkdir ./inputcp ./etc/hadoop/*.xml ./inputhadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'1234
输出的结果应该会是:
1 dfsadmin 1
这里有一点需要注意,该Example程序运行时不能已存在output目录,否则或将无法执行!
四、Hadoop的伪分布式环境搭建
什么是伪分布式?Hadoop 伪分布式模式是在一台机器上模拟Hadoop分布式,单机上的分布式并不是真正的分布式,而是使用线程模拟的分布式。分布式和伪分布式这两种配置也很相似,唯一不同的地方是伪分布式是在一台机器上配置,也就是名字节点(namenode)和数据节点(datanode)均是同一台机器。
需要配置的文件有core-site.xml和hdfs-site.xml这两个文件他们都位于${HADOOP_HOME}/etc/hadoop/文件夹下。 其中core-site.xml:
1 2 3 18 19 20 21 hadoop.tmp.dir22 file:/home/hadoop/tmp23 Abase for other temporary directories.24 25 26 fs.default.name27 hdfs://master:900028 29 1234567891011121314151617文件hdfs-site.xml的配置如下:
1 2 3 18 19 20 21 dfs.replication22 123 24 25 dfs.namenode.name.dir26 file:/home/hadoop/tmp/dfs/name27 28 29 dfs.datanode.data.dir30 file:/home/hadoop/tmp/dfs/data31 32 1234567891011121314151617181920配置完成后,执行格式化命令,使HDFS将制定的目录进行格式化:
hdfs namenode -format1若格式化成功,在临近输出的结尾部分可看到如下信息:
五、启动HDFS
启动HDFS的脚本位于Hadoop目录下的sbin文件夹中,即:
cd `echo $HADOOP_HOME` ./sbin/start-dfs.sh # 启动HDFS脚本12在执行start-dfs.sh脚本启动HDFS时,可能出现类似如下的报错内容:
localhost: Error: JAVA_HOME is not set and could not be found.1很明显,是JAVA_HOME没找到,这是因为在hadoop-env.sh脚本中有个JAVA_HOME=${JAVA_HOME},所以只需将${JAVA_HOME}替换成你的JDK的路径即可解决:
echo $JAVA_HOME # /usr/lib/java/jdk1.*.*_** vim ./etc/hadoop/hadoop-env.sh # 将‘export JAVA_HOME=${JAVA_HOME}’字段替换成‘export JAVA_HOME=/usr/lib/java/jdk1.*.*_**’即可12再次执行
`echo $HADOOP_HOME`/sbin/start-all.sh1如果成功,应该会有如下输出: 也可以执行以下命令判断是否启动:
jps1若已成功运行起来了,会有类似如下输出: 对了,初次执行貌似还有两次确认,输入“yes”即是。对应的启动,自然也有关闭咯:
`echo $HADOOP_HOME`/sbin/stop-dfs.sh1当成功启动之后,可以在浏览器通过访问网址http://192.168.2.109:50070/
六、运行伪分布式实例
以上的“四、测试一下”只是使用的是本机的源生文件运行的测试Demo实例。既然搭建好了伪分布式的环境,那就使用分布式上存储(HDFS)的数据来进行一次Demo测试:
先将数据源搞定,也就是仿照“四”中的Demo一样,新建一个文件夹作为数据源目录,并添加一些数据:
hdfs dfs -mkdir /input # 这里的文件名必须要以‘/’开头,暂时只了解是hdfs是以绝对路径为基础,因为没有 ‘-cd’这样的命令支持 hdfs dfs -put `echo $HADOOP_HOME`/etc/hadoop/*.xml /input12也可以查看此时新建的input目录里面有什么:
hdfs dfs -ls / hdfs dfs -ls /input 12再次运行如之前运行的那个Demo
hadoop jar /usr/local/etc/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep /input /output 'dfs[a-z.]+'1可看见如下输出: 再次查看HDFS中的目录:
hdfs dfs -ls / hdfs dfs -cat /output*12
如此,该测试算式通过了。HDFS支持的操作hdfs dfs -command中的‘command’也可通过只键入hdfs dfs即可查看:
七、Hadoop集群安装
关乎集群,必然需要各太机器间能够通信,所以需配置使每台虚拟机的网卡连接方式为“桥接网卡”,并且他们的MAC地址一定不能有相同。配置集群所需的三台Linux虚拟机都运行在VirtualBox虚拟机上,既然已经配置好了一台的环境,可以使用virtualbox的复制功能,直接复制两台出来。 先关闭虚拟机,右键点击已配置好的那台Linux虚拟机,选择“复制”,在复制选项中一定要确认“初始化MAC地址“:
配置master 为便于区别master和slave,将作为master的主机名改为”master“,修改/etc/hostname文件,将里面以前的名称替换成‘master’:
sudo vim /etc/hostname1修改master以及所有slave主机上的IP地址映射关系,添加master机器的IP以及slave机器的IP及对应的机器名称:
sudo vim /etc/hosts#vim: 8 192.168.2.109 master 9 192.168.2.119 slave01 # 对应的第一个slav主机的名称10 192.168.2.129 slave02 # 对应的第二个slav主机的名称123456修改完成之后重启一下虚拟机,重启之后验证一下是否能互相ping通: master主机上ping所有: slave01主机上ping所有:
@ 这里所使用的IP地址,最好配置成静态的IP,配置静态IP可参考配置静态IP地址
master配置SSH无密码登陆slave节点
这个操作是要让master节点可以无需密码通过SSH登陆到各个slave节点上 安装openssh-server,生成密钥,配置无密码登录:
sudo apt-get install openssh-server cd ~ # 进入hadoop用户目录下 mkdir .ssh & cd ./.ssh # keygen存放的位置 ssh-keygen -t rsa cat id_rsa.pub >> authorized_keys # 加入授权12345然后将生成的密钥复制到其他的slave主机上,期间需要输入‘yes’确认传输和输入密码以认证身份:
scp /home/hadoop/.ssh/id_rsa.pub hadoop@slave01:/home/hadoop scp /home/hadoop/.ssh/id_rsa.pub hadoop@slave02:/home/hadoop12接着在各个slave节点上将ssh公钥加入授权:
cd ~ mkdir .ssh # 若是已经存在了,就先把它删掉 cat id_rsa.pub >> ./.ssh/authorized_keys rm id_rsa.pub # 已使用1234执行完以上操作,便可测试一下在master上无密码ssh连接slave节点的主机了:
ssh slave011
配置集群/分布式环境
配置分布式集群环境需对一下几个文件进行配置:
slaves: 文件 slaves,配置datanode的主机名,每行一个,默认为 localhost,所以在伪分布式配置时,节点即作为namenode也作为datanode。分布式配置可以保留localhost,也可以删掉,让master节点仅作为namenode使用。现配置两个slave则在该文件中编辑如下字段:
slave01slave0212core-site.xml:
1 2 3 18 19 20 21 hadoop.tmp.dir 22 file:/home/hadoop/tmp23 Abase for other temporary directories.24 25 26 fs.defaultFS 27 hdfs://master:900028 29 1234567891011121314151617hdfs-site.xml:
1 2 3 18 19 20 21 dfs.replication 22 223 24 25 dfs.namenode.name.dir 26 file:/home/hadoop/tmp/dfs/name27 28 29 dfs.datanode.data.dir30 file:/home/hadoop/tmp/dfs/data31 32 33 dfs.namenode.secondary.http-address34 master:5009035 36 123456789101112131415161718192021222324mapred-site.xml,该文件一开始为一个模版,所以先拷贝并重命名一份:
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml1vim:
1 2 3 18 19 20 21 mapreduce.framework.name22 yarn23 24 25 mapreduce.jobhistory.address26 master:1002027 28 29 mapreduce.jobhistory.webapp.address30 master:1988831 32 123456789101112131415161718192021yarn-site.xml:
1 2 15 16 17 18 yarn.resourcemanager.hostname19 master20 21 22 yarn.nodemanager.aux-services23 mapreduce_shuffle24 25 12345678910111213141516这些配置文件其他的相关配置可参考官方文档。配置好后,因为之前有跑过伪分布式模式,建议在切换到集群模式前先删除之前的临时文件:
cd `echo $HADOOP_HOME` rm -rf ./tmp/ rm -rf ./logs123再将配置好的master上的/usr/local/etc/hadoop文件夹复制到各个节点上(也就是覆盖原来的slave节点上安装的hadoop)。 以上步骤完毕后,首次启动需要先在master节点执行namenode的格式化:
hdfs namenode -format # 首次运行需要执行初始化,之后并不需要1接着可以启动hadoop了,启动需要在master节点上进行:
cd `echo $HADOOP_HOME/etc/hadoop` start-dfs.sh start-yarn.sh mr-jobhistory-daemon.sh start historyserver1234执行结果:
再使用jps查看启动之后的状态:
jps1此时,到slave主机上查看(jps)状态,会发现:
缺少任一进程都表示出错。另外还需要在 master 节点上通过命令hdfs dfsadmin -report -live查看 datanode 是否正常启动,如果 Live datanodes 不为 0 ,则说明集群启动成功。例如在此配置了两个datanode,则这边一共有 2 个 datanodes:
也可通过http://192.168.2.109:50070 如果发现并没有出现如上信息,则使用刷新节点命令进行刷新:
hdfs dfsadmin -refreshNodes1八、HDFS集群实例测试
依然是之前的那个示例,首先,创建一个数据源文件夹,并添加数据:
hdfs dfs -mkdir /input hdfs dfs -put /usr/local/etc/hadoop/etc/hadoop/*.xml /input12运行mapreduce示例:
hadoop jar /usr/local/etc/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep /input /output 'dfs[a-z.]+'1holding…

环境配置:
虚拟机:
vmware workstation 12
系统:
ubuntu 16.04 LTS(推荐使用原版,不要用kylin)
节点:                192.168.159.132    master                192.168.159.134    node1                192.168.159.137    node2
jdk-8u101-Linux-x64.gz (Java )hadoop-2.7.3.tar.gz (Hadoop 包)
安装步骤:
1、安装虚拟机系统,并进行准备工作(可安装一个然后克隆)
2.修改各个虚拟机的hostname和host
3.创建用户组和用户
4、配置虚拟机网络,使虚拟机系统之间以及和host主机之间可以通过相互ping通。
5.安装jdk和配置环境变量,检查是否配置成功
6、配置ssh,实现节点间的无密码登录 ssh node1/2指令验证时候成功
7、master配置hadoop,并将hadoop文件传输到node节点
8、配置环境变量,并启动hadoop,检查是否安装成功,执行wordcount检查是否成功。

1.安装虚拟机

在VM上安装下载好的Ubuntu的系统,具体过程自行百度。可以安装完一个以后克隆,但是本人安装过程中遇到很多问题,经常需要删除虚拟机,重新安装,而被克隆的虚拟机不能删除,所以本人就用了很长时候,一个一个安装。

一共3台虚拟机:分配情况和IP地址如下:

(注:查看ip地址的指令   ifconfig)

安装虚拟机时可以设置静态IP,因为过程中常常遇到网络连接问题,ifconfig找不到IPV4地址。当然,也可以不设,默认分配。

192.168.159.132    master                192.168.159.134    node1                192.168.159.137    node2

2.修改虚拟机的hostname和hosts文件

以master上机器为例,打开终端,执行如下的操作,把hostname修改成master,hosts修改成如下所示的样子:

#修改hostname的指令:sudo gedit /etc/hostname
#修改hosts指令:sudo gedit /etc/hosts
#将以下内容添加到hosts中192.168.159.132    master192.168.159.134    node1192.168.159.137    node2

如下图所示:


同样地,在node1和node2机器上做相似的操作,分别更改主机名为node1和node2,然后把hosts文件更改和master一样。

3.创建用户和用户组(三台机器上都要操作)

1. 创建hadoop用户组

sudo addgroup hadoop
2. 创建hadoop用户

sudo adduser -ingroup hadoop hadoop
3. 给hadoop用户添加权限,打开/etc/sudoers文件

sudo gedit /etc/sudoers

按回车键后就会打开/etc/sudoers文件了,给hadoop用户赋予root用户同样的权限
在root  ALL=(ALL:ALL)  ALL下添加hadoop  ALL=(ALL:ALL)  ALL

4.检验各个主机之间能否连通

分别以刚刚创建的hadoop用户重新登录系统,以后的操作都以hadoop用户登录。

ping +主机名

分别在各个主机上执行上述指令,看是否能与其他主机连通。

出现下图代表能够连通:


如果都成功ping通,进行下面的操作。

5.安装jdk和配置环境变量

分别在每台主机上安装jdk,并配置环境变量。(嫌麻烦的前面可以安装完jdk后再克隆)

1)下载jdk安装包(自行百度),并将安装包拖入到虚拟机当中

2)通过cd命令进入到安装包的当前目录,利用如下命令进行解压缩。

tar -zxvf jdk.....(安装包名称)

3)利用如下命令将解压后的文件夹移到/usr目录下 

#注意,这样移动到/usr以后就没有jdk1.8...这个目录了,是将这个目录下的所有文件全部移动到/usr/java下,mv jdk1.8...(文件夹名称) /usr/java

4)配置环境变量

sudo gedit /etc/profile

在末尾加上四行:

[plain] view plain copy print?

  • #java    

  • export JAVA_HOME=/usr/java   

  • export JRE_HOME=/usr/java/jre    

  • export CLASSPATH=$JAVA_HOME/lib    

  • export PATH=:$PATH:$JAVA_HOME/bin:$JRE_HOME/bin  

  • 输入如下命令使配置生效:source /etc/profile

    查看配置是否成功,

    出现如上信息说明java配置成功。

    6.配置SSH,实现节点间的无密码登录

    本人在这一步经常出错,莫名其妙的错误,网上也找不到资料。需要自己多实验几次。

    下面的 1.2.3在所有主机上都要做

    1..安装ssh

    [plain] view plain copy print?

  • sudo apt-get install openssh-server  

  • 已有ssh或者安装成功了的输入命令

    [plain] view plain copy print?

  • ps -e | grep ssh  

  • 验证SSH是否成功安装输入

    [plain] view plain copy print?

  • ssh localhost  

  • 出现以下提示说明安装成功


    3.生成密钥Pair

  • ssh-keygen -t rsa

  • 输入之后一直选择enter即可。生成的秘钥位于 ~/.ssh文件夹下。可用cd 命令进入查看。

    4.在master上,导入authorized_keys

  • cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

  • 5.远程无密码登录(把master上的authorized_keys拷贝到其他主机的相应目录下)

  • #进入master的.ssh目录,执行复制操作

  • scp authorized_keys hadoop@node1:~/.ssh/

  • scp authorized_keys hadoop@node2:~/.ssh/

  • 修改各台主机上authorized_keys文件的权限:

    所有机器上,均执行命令:

  • chmod 600 .ssh/authorized_keys

  • 完成之后,在master上执行下面操作,检查免密码登录是否成功。

  • ssh node1(node2)


  • 7.master配置hadoop,然后将master的hadoop文件传送给node节点

    1)解包移动

    [plain] view plain copy print?

  • #解压hadoop包  

  • tar -zxvf hadoop...  

  • #将安装包移到/usr目录下  

  • mv hadoop... /usr/hadoop  

  • 2)新建文件夹

    [plain] view plain copy print?

  • #在/usr/hadoop目录下新建如下目录(root)  

  • mkdir /dfs  

  • mkdir /dfs/name  

  • mkdir /dfs/data  

  • mkdir /tmp  

  • 3)配置文件:hadoop-env.sh(文件都在/usr/hadoop/etc/hadoop中)

    修改JAVA_HOME值(export JAVA_HOME=/usr/java) 

    4)配置文件:yarn-env.sh

    修改JAVA_HOME值(export JAVA_HOME=/usr/java)

    5)配置文件:slaves

    将内容修改为:

  • node1

  • node2

  • 6)配置文件:core-site.xml

    [html] view plain copy print?

  • <configuration>  

  • <property>  

  • <name>fs.defaultFS</name>  

  • <value>hdfs://master:9000</value>  

  • </property>  

  • <property>  

  • <name>io.file.buffer.size</name>  

  • <value>131072</value>  

  • </property>  

  • <property>  

  • <name>hadoop.tmp.dir</name>  

  • <value>file:/usr/hadoop/tmp</value>  

  • <description>Abase for other temporary   directories.</description>  

  • </property>  

  • </configuration>  

  • 7)配置文件:hdfs-site.xml

    [html] view plain copy print?

  • <configuration>  

  • <property>  

  • <name>dfs.namenode.secondary.http-address</name>  

  • <value>master:9001</value>  

  • </property>  

  • <property>  

  • <name>dfs.namenode.name.dir</name>  

  • <value>file:/usr/hadoop/dfs/name</value>  

  • </property>  

  • <property>  

  • <name>dfs.datanode.data.dir</name>  

  • <value>file:/usr/hadoop/dfs/data</value>  

  • </property>  

  • <property>  

  • <name>dfs.replication</name>  

  • <value>2</value>  

  • </property>  

  • <property>  

  • <name>dfs.webhdfs.enabled</name>  

  • <value>true</value>  

  • </property>  

  • </configuration>  

  • 8)配置文件:mapred-site.xml

    先创建然后编辑

    cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

    gedit etc/hadoop/mapred-site.xml

    [html] view plain copy print?

  • <configuration>  

  • <property>                                                                    

  • <name>mapreduce.framework.name</name>  

  • <value>yarn</value>  

  • </property>  

  • <property>  

  • <name>mapreduce.jobhistory.address</name>  

  • <value>master:10020</value>  

  • </property>  

  • <property>  

  • <name>mapreduce.jobhistory.webapp.address</name>  

  • <value>master:19888</value>  

  • </property>  

  • </configuration>  

  • 9)配置文件:yarn-site.xml

    [html] view plain copy print?

  • <configuration>  

  • <property>  

  • <name>yarn.nodemanager.aux-services</name>  

  • <value>mapreduce_shuffle</value>  

  • </property>  

  • <property>                                                                  

  • <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>  

  • <value>org.apache.hadoop.mapred.ShuffleHandler</value>  

  • </property>  

  • <property>  

  • <name>yarn.resourcemanager.address</name>  

  • <value>master:8032</value>  

  • </property>  

  • <property>  

  • <name>yarn.resourcemanager.scheduler.address</name>  

  • <value>master:8030</value>  

  • </property>  

  • <property>  

  • <name>yarn.resourcemanager.resource-tracker.address</name>  

  • <value>master:8031</value>  

  • </property>  

  • <property>  

  • <name>yarn.resourcemanager.admin.address</name>  

  • <value>master:8033</value>  

  • </property>  

  • <property>  

  • <name>yarn.resourcemanager.webapp.address</name>  

  • <value>master:8088</value>  

  • </property>  

  • </configuration>  

  • 10)将hadoop传输到node1和node2 usr/hadoop目录,(如果传输时报错说 :权限拒绝,先把文件传送到非/usr目录下,然后在node上把这个文件再移动到/usr/hadoop)

  • scp -r /usr/hadoop hadoop@node1:/usr/hadoop

  • 7、配置环境变量,并启动hadoop,检查是否安装成功

  • 1)配置环境变量

  • #编辑/etc/profilesudo gedit /etc/profile#以上已经添加过java的环境变量,在后边添加就可以#hadoop  export HADOOP_HOME=/opt/Hadoop/hadoop-2.7.2  export PATH=$PATH:$HADOOP_HOME/sbin  export PATH=$PATH:$HADOOP_HOME/bin  

  • 执行 

  • source /etc/profile

  • 使文件生效。

    2)启动hadoop,进入hadoop安装目录

  • bin/hdfs namenode -format

  • sbin/start-all.sh

  • 3)启动后分别在master, node下输入jps查看进程

    看到下面的结果,则表示成功。

    Master:


    node:


    8.向hadoop集群系统提交第一个mapreduce任务(wordcount)

    进入本地hadoop目录(/usr/hadoop)

    1、  bin/hdfs dfs -mkdir -p /data/input在虚拟分布式文件系统上创建一个测试目录/data/input

    2、  hdfs dfs -put README.txt  /data/input  将当前目录下的README.txt 文件复制到虚拟分布式文件系统中

    3、  bin/hdfs dfs-ls /data/input    查看文件系统中是否存在我们所复制的文件

    如图操作:


    3、  运行如下命令向hadoop提交单词统计任务

    进入jar文件目录,执行下面的指令。

  • hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /data/input /data/output/result

  • 查看result,结果在result下面的part-r-00000中

  • hdfs dfs -cat /data/output/result/part-r-00000


  • 自此,hadoop集群搭建成功!




云技术的云技术的关键
从逻辑上讲,企业可以将业务流程和功能分割成小的功能块,并将其与云技术结合,从而创造出个性化的业务功能,同时将原先一两年才能完成的架构搭建工作缩短到数周或数个月完成。虽然这还只是个梦想,但是企业的CEO们应该从今天就着手进行相应的准备工作了。而这个准备工作并不复杂:理解企业的IT内容和业务流...

云技术是什么意思
云计算技术将变成重要支撑。它的特点与普通计算机的区别:1.分布式新型体系结构,多种廉价计算资源并行计算,大幅度提高IT基础设施的计算速度和存储能力。2.支持海量结构化和非结构化的数据处理。3.计算能力动态可伸缩,可满足用户业务需求的变化。4.超强容错能力,在节点计算资源发生故障的情况下仍能继续正...

华容县18716274678: 如何基于Docker快速搭建多节点Hadoop集群 -
掌斩征之: 直接用机器搭建Hadoop集群是一个相当痛苦的过程,尤其对初学者来说.他们还没开始跑wordcount,可能就被这个问题折腾的体无完肤了.而且也不是每个人都有好几台机器对吧.你可以尝试用多个虚拟机搭建,前提是你有个性能杠杠的机器...

华容县18716274678: 搭建hadoop集群用什么操作系统 -
掌斩征之: Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中.这篇教程介绍了利用Docker在单机上快速搭建多节点Hadoop集群的详细步骤.作者在发现目前的HadooponDocker项目所存在的问题之后,开发了接近最小化...

华容县18716274678: 怎么在服务器上搭建hadoop集群 -
掌斩征之: 前期准备 l 两台linux虚拟机(本文使用redhat5,IP分别为 IP1、IP2) l JDK环境(本文使用jdk1.6,网上很多配置方法,本文省略) l Hadoop安装包(本文使用Hadoop1.0.4) 搭建目标 210作为主机和节点机,211作为节点机. 搭建步骤 1修改hosts文...

华容县18716274678: 怎样在本地搭建hadoop测试环境 -
掌斩征之: namenode节点配置 conf/core-site.xml:fs.default.name hdfs://localhost:9000 hdfs测试环境配置 conf/hdfs-site.xml: 数据块不需要冗余dfs.replication 1 job-tracker配置 conf/mapred-site.xml:mapred.job.tracker localhost:9001 免密码ssh登录配置$ ...

华容县18716274678: hadoop2集群怎么规划
掌斩征之: 4台机器还是放弃HA的搭建吧.NM和RM一般放在一起,我是放在一起的RM作为一个资源调度框架,他会把资源分发到NM上让其运行任务

华容县18716274678: 如何搭建50t的hadoop集群 -
掌斩征之: 先决条件 确保在你集群中的每个节点上都安装了所有必需软件. 获取Hadoop软件包. 安装 安装Hadoop集群通常要将安装软件解压到集群内的所有机器上.通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker...

华容县18716274678: 如何处理两种存储系统? -
掌斩征之: 1.jpg 参考这个:两种可能性几乎都没有.1.目前来讲,一个集群不会有两种存储系统参考http://www.aboutyun.com/thread-8794-1-1.html2.两个集群合并,可以使用hadoop distcp hftp://source/source hdfs://dest:9000/source

华容县18716274678: 在docker中搭建hadoop集群有什么好方法配置ip -
掌斩征之: 1. 该问题是由于docker在启动暂停或退出的container时会初始化系统文件如/etc/hosts等四个文件.导致依赖于ip主机名对应关系的hadoop集群无法工作.2. 可利用编写脚本调用expect在管理机上推送示例文件(这个示例文件内容需要脚本采用...

华容县18716274678: 搭建Hadoop集群,一个月6T的数量需要几台服务器 -
掌斩征之: 最好是两个做成HA 关于硬盘:6T的数据容量,看你副本数量设置是多少,一般默认为3,那么仅这些就需要18T硬盘,稍微大一点20T吧;这仅仅是HDFS存储;(这里我说的是一个月的,你数据保存几个月,就乘几倍) 如果你集群上面要跑计...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网