三个节点hdfs-site.xml该怎么配置

作者&投稿:曹萱 (若有异议请与网页底部的电邮联系)
hadoop完全分布模式三台怎么配置~

  1:在每一台机器的/etc/hosts文件中加入ip地址和主机名的映射,也就是把上面的三行加入到hosts文件中,注意在实际的安装中我们往往需要修改主机名称。配置好的hosts内容如下所示:
  
  2:配置ssh无密码访问:
  执行以下命令:
  ssh-keygen -t dsa -P "" -f ~/.ssh/id_dsa
  cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
  并且把所有节点的authorized_keys的内容相互拷贝加入到每一个节点的authorized_keys中,配置完成后每一个节点的authorized_keys文件的内容应该是一样的。
  
  在继续安装前,一定要保证这一步安装正确,可以使用ssh 主机名命令来测试是否成功,例如:ssh rhel5530g,如果成功则会进入到rhel5530g机器中。
  3:解压hadoop文件夹。
  4:进入conf目录,配置hadoop文件,我们需要配置以下几个文件:
  
  首先配置masters文件:
  
  这里以192.168.12.18做为主节点,也就是namenode节点。
  
  然后配置slaves文件:
  
  这里以192 168.2.215和192 168.35.198做为datanode节点。
  
  配置hadoop-env.sh文件:
  
  这里是配置java的安装地址。
  
  配置hdfs-site.xml文件:
  
  配置core-site.xml:
  
  配置mapred-site.xml:
  
  5:把文件复制到其他机器上:
  scp -r /data/software/hadoop/ rhel5530g:/data/software/hadoop/
  scp -r /data/software/hadoop/ mddb01:/data/software/hadoop/
  这里我们是首先在localhost.localdomain机器中配置好文件的,然后再复制到其它机器的。
  
  6:格式化namenode:
  cd /data/software/hadoop/hadoop-1.2.1/bin/
  ./hadoop namenode –format
  如果出现……has been successfully formatted,说明格式化成功。
  
  7:启动hadoop,进入bin目录,运行./start-all.sh,执行完成后在master节点运行jps,如果出现以下红色框里的进程,说明执行成功。
  
  然后在slave节点运行jps,如果出现以下红色框里的进程,说明执行成功。

第一步:修改core-site.xml,配置如下内容:





fs.default.name
hdfs://localhost:9000
true



dfs.replication
1



第二步:修改hdfs-site.xml文件,配置如下内容:





dfs.name.dir
/cygdrive/d/hadoop/working/name
true


dfs.data.dir
/cygdrive/d/hadoop/working/data
true


fs.checkpoint.dir
/cygdrive/d/hadoop/working/checkpoint
true


第三步:修改mapred-site.xml配置如下内容:





mapred.job.tracker
hdfs://localhost:9001
true


mapred.local.dir
/cygdrive/d/hadoop/working/dir1,/cygdrive/d/hadoop/working/dir2
true


mapred.system.dir
/cygdrive/d/hadoop/working/system
true



第4步,进入cygwin客户端,执行
$ cd /cygdrive/d/hadoop 【其中/d/hadoop 为hadoop安装目录,即d:\hadoop,linux表示路径和windows不同】
$ bin/hadoop namenode –format 【格式化namenode】
第5步,修改工作目录权限
$ bin/hadoop dfs chmod 777 /cygdrive/d/hadoop/working 【/cygdrive/d/hadoop/working 为工作目录,默认是tmp】

第6步,启动hadoop
$ bin/start-all.sh
$ ps –ef
通过ps查看进程,能看到5个java进程,即成功。
转载,仅供参考。

<!--Thu Aug 15 20:47:13 2013-->
<configuration>
<property>
<name>dfs.cluster.administrators</name>
<value> hdfs</value>
<!-- HDFS 超级管理员用户 -->
</property>
<property>
<name>dfs.block.access.token.enable</name>
<value>true</value>
<!-- 是否开启 token 访问验证 -->
</property>
<property>
<name>dfs.datanode.failed.volumes.tolerated</name>
<value>0</value>
<!-- 能够导致DN挂掉的坏硬盘最大数,默认0就是只要有1个硬盘坏了,DN就会shutdown -->
</property>
<property>
<name>dfs.replication.max</name>
<value>50</value>
<!-- 有时dn临时故障恢复后会导致数据超过默认备份数。复制份数的最多数,通常没什么用,可以不用写配置文件里。 -->
</property>
<property>
<name>dfs.datanode.du.reserved</name>
<value>1073741824</value>
<!-- 每块磁盘所保留的空间大小,需要设置一些,主要是给非hdfs文件使用,默认是不保留,0字节 -->
</property>
<property>
<name>dfs.blockreport.initialDelay</name>
<value>120</value>
<!-- 推迟第一个 block报告在几秒钟内 -->
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///data/hadoop/hdfs/dn</value>
<!-- 真正的datanode数据保存路径,可以写多块硬盘,逗号分隔.把这些位置分散在每个节点上的所有磁盘上可以实现磁盘 I/O 平衡,因此会显著改进磁盘 I/O 性能。 -->
</property>
<property>
<name>dfs.client.read.shortcircuit</name>
<value>true</value>
</property>
<property>
<name>dfs.datanode.max.transfer.threads</name>
<value>4096</value>
<!-- 指定datanode的最大数量的线程用于传输数据。默认 4096 -->
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop01:50070</value>
<!--namenode web UI-->
</property>
<property>
<name>dfs.client.read.shortcircuit.streams.cache.size</name>
<value>4096</value>
<!-- 在客户端读取前会创建一个FileinputStreamCache,就是由前两个参数控制大小和过期时间,
dfs.client.read.shortcircuit.streams.cache.size和dfs.client.read.shortcircuit.streams.cache.expiry.ms -->
</property>
<property>
<name>dfs.namenode.avoid.write.stale.datanode</name>
<value>true</value>
<!-- 表明是否要避免写为“过时”的心跳消息尚未收到的NameNode超过指定的时间间隔数据节点。写操作将避免使用陈旧的数据节点,除非多数据节点的配置比例
(dfs.namenode.write.stale.datanode.ratio)被标记为失效。见dfs.namenode.avoid.read.stale.datanode为读取一个类似的设置。 -->
</property>
<property>
<name>dfs.namenode.avoid.read.stale.datanode</name>
<value>true</value>
</property>
<property>
<name>dfs.namenode.stale.datanode.interval</name>
<value>30000</value>
<!-- 默认时间间隔一个datanode标记为“down机”,即。 ,如果 namenode没有接到一个datanode心跳超过这个时间间隔,datanode将标记为“过期”。 过期的间隔不能太小 (默认值是3倍 心跳间隔)-->
<!--dfs.client.read.shortcircuit.streams.cache.size和dfs.client.read.shortcircuit.streams.cache.expiry.ms
以及dfs.client.read.shortcircuit.skip.checksum和dfs.client.read.shortcircuit.buffer.size.其中,
在客户端读取前会创建一个FileinputStreamCache,就是由前两个参数控制大小和过期时间的,其中key就是Datanode+block;
后两个参数就是决定是否跳过校验以及校验的块大小.-->
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>true</value>
<!-- 在HDFS中启用权限检查 TRUE|FALSE。-->
</property>
<property>
<name>dfs.datanode.ipc.address</name>
<value>0.0.0.0:8010</value>
<!--DN的IPC监听端口,写0的话监听在随机端口通过心跳传输给NN -->
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///data/hadoop/hdfs/nn</value>
<!-- NN所使用的元数据保存,一般建议在nfs上保留一份,作为1.0的HA方案使用,也可以在一台服务器的多块硬盘上使用 -->
</property>
<property>
<name>dfs.journalnode.http-address</name>
<value>0.0.0.0:8480</value>
<!-- JournalNode web UI监听。 如果端口是0,那么服务器将启动将自定义端口。 -->
</property>
<property>
<name>dfs.heartbeat.interval</name>
<value>3</value>
<!-- DN的心跳检测时间间隔 3 秒 -->
</property>
<property>
<name>dfs.datanode.data.dir.perm</name>
<value>750</value>
<!-- datanode所使用的本地文件夹的路径权限,默认755 -->
</property>
<property>
<name>fs.permissions.umask-mode</name>
<value>022</value>
<!-- 创建文件和目录使用umask值。 -->
</property>
<property>
<name>dfs.datanode.balance.bandwidthPerSec</name>
<value>6250000</value>
<!-- 每个datanode指定的最大数量的带宽,每秒的字节数。-->
</property>
<property>
<name>dfs.namenode.accesstime.precision</name>
<value>0</value>
<!-- HDFS文件的访问时间精确值。 默认值是1小时。 设置的值为0禁用HDFS的访问时间。-->
</property>
<property>
<name>dfs.namenode.write.stale.datanode.ratio</name>
<value>1.0f</value>
<!-- 当总datanodes陈旧datanodes数量的比率明显 超过这个比例,停止避免写入失效节点,防止出现问题。-->
</property>
<property>
<name>dfs.namenode.checkpoint.dir</name>
<value>file:///data/hadoop/hdfs/snn</value>
<!-- secondary namenode 节点存储 checkpoint 文件目录-->
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/grid/0/hdfs/journal</value>
</property>
<property>
<name>dfs.blocksize</name>
<value>134217728</value>
<!-- 2.X 版本默认值:134217728 说明: 这个就是hdfs里一个文件块的大小了,默认128M;太大的话会有较少map同时计算,
太小的话也浪费可用map个数资源,而且文件太小namenode就浪费内存多。对于较大集群,可设为256MB,根据需要进行设置。-->
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
<!-- hdfs数据块的复制份数,默认3,理论上份数越多跑数速度越快,但是需要的存储空间也更多。有钱人可以调5或者6 -->
</property>
<property>
<name>dfs.block.local-path-access.user</name>
<value>hbase</value>
</property>
<property>
<name>dfs.datanode.address</name>
<value>0.0.0.0:50010</value>
<!-- DN的服务监听端口,端口为0的话会随机监听端口,通过心跳通知NN -->
</property>
<property>
<name>dfs.datanode.http.address</name>
<value>0.0.0.0:50075</value>
<!-- DN的tracker页面监听地址和端口 -->
</property>
<property>
<name>dfs.https.namenode.https-address</name>
<value>c6401.ambari.apache.org:50470</value>
<!-- NN的HTTPS的tracker页面监听地址和端口 -->
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
<!-- 使WebHDFS Namenodes和Datanodes(REST API)。-->
</property>
<property>
<name>dfs.namenode.handler.count</name>
<value>100</value>
<!--NN启动后展开的线程数。-->
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop02:50090</value>
<!-- secondary name node web 监听端口 -->
</property>
<property>
<name>dfs.permissions.superusergroup</name>
<value>hdfs</value>
</property>
<property>
<name>dfs.namenode.safemode.threshold-pct</name>
<value>1.0f</value>
</property>
<property>
<name>dfs.domain.socket.path</name>
<value>/var/lib/hadoop-hdfs/dn_socket</value>
</property>
</configuration>


三个节点hdfs-site.xml该怎么配置
<value>\/grid\/0\/hdfs\/journal<\/value> <\/property> <property> <name>dfs.blocksize<\/name> <value>134217728<\/value><!-- 2.X 版本默认值:134217728 说明: 这个就是hdfs里一个文件块的大小了,默认128M;太大的话会有较少map同时计算,太小的话也浪费可用map个数资源,而且文件太小namenode就浪费内存多。...

hdfs参数配置详解
常用的端口配置 1 HDFS端口 | 参数 | 描述 | 默认 | 配置文件 | 例子值 | | fs.default.name namenode | namenode RPC交互端口 | 8020 | core-site.xml | hdfs:\/\/master:8020\/ | | dfs.http.address | NameNode web管理端口 | 50070 | hdfs- site.xml | 0.0.0.0:50070 | | dfs.datanode.a...

如何修改hue的配置
修改\/etc\/hue\/conf\/hue.ini 中 hadoop.hdfs_clusters.default.webhdfs_url 属性。对于WebHDFS: webhdfs_url=http:\/\/cdh1:50070\/webhdfs\/v1\/对于HttpFS: webhdfs_url=http:\/\/cdh1:14000\/webhdfs\/v1\/YARN 集群配置在hadoop.yarn_clusters.default 节点下配置: [hadoop] [[yarn_clusters]] [[[default]]] r...

如何架构大数据系统hadoop
(1)Hadoop最底层是一个HDFS(Hadoop Distributed File System,分布式文件系统),存储在HDFS中的文件先被分成块,然后再将这些块复制到多个主机中(DataNode,数据节点)。 (2)Hadoop的核心是MapReduce(映射和化简编程模型)引擎,Map意为将单个任务分解为多个,而Reduce则意为将分解后的多任务结果汇总,该引擎由JobTrackers(工...

HDFS 系统架构
HDFS是主从架构。一个HDFS集群包含一个NameNode,一个管理文件系统命名空间和控制客户端访问文件的master server。以及,若干的 DataNodes,通常集群的每个node一个,管理运行DataNode的节点上的存储。HDFS 发布一个文件系统命名空间,并允许用户数据已文件的形式存储在上面。内部,一个文件被分成一个或多个块,存储在一组DataN...

在hadoop项目结构中,hdfs指的是什么
(2)Hadoop的核心是MapReduce(映射和化简编程模型)引擎,Map意为将单个任务分解为多个,而Reduce则意为将分解后的多任务结果汇总,该引擎由JobTrackers(工作追踪,对应命名节点)和TaskTrackers(任务追踪,对应数据节点)组成。在hadoop1中核心组成部分是HDFS、MapReduce,到了Hadoop2,核心变为HDFS、Yarn,而且...

hdfs详解之架构、SNN和副本放置策略
HDFS是一个主从架构。 Rack代表机架 一个机架一般是10台服务器,或者是5台带GPU的服务器。 在CDH中一般不会让机架发挥作用,默认都是default机架。1、NN:名称节点 存储: 文件系统的命名空间 a.文件名称 b.文件目录结构 c.文件属性(权限、创建时间、副本数) d.文件对应的...

大数据 HDFS 有哪些基础操作?
fs -mkdir \/test 和 hadoop fs -rmdir \/test。同时,-du用于统计文件夹大小,如:hadoop fs -du -s -h \/user\/itcast\/test。以上只是HDFS基础操作的冰山一角,深入学习和熟练掌握这些命令将帮助你更高效地在大数据海洋中航行。通过实践和不断探索,你将能更好地利用HDFS进行数据存储、管理和分析。

HDFS 报错: There are 0 datanode(s) running and 0 node(s) are excl...
出现上述问题可能是格式化两次hadoop,导致没有datanode 解决方法1:重启linux,再使用start-dfs.sh和start-yarn.sh 重启一下hadoop 解决办法2:找到hadoop安装目录下 hadoop-2.4.1\/data\/dfs\/data里面的current文件夹删除 然后从新执行一下 hadoop namenode -format 再使用start-dfs.sh和start-yarn.sh ...

HDFS架构和功能
When creating a file in HDFS, clients interact with the NameNode for block locations and security tokens. The DistributedFileSystem's create() method initiates the process, and the NameNode verifies permissions and creates a record for the file. Reading from HDFS, clients ask the ...

雁江区15958824049: hadoop中的hdfs - site.xml修改后会立马生效吗?如果修改后,不重启再修改副本数,以前的副本数还会动态修改吗 -
凤蒲尤力: 刚才在hadoop2.6.5版本分布式集群环境试了一下:修改hdfs-site.xml文件的dfs.replication值后,不重启hadoop集群,上传马上生效.不重启,对于修改dfs.replication值之前的文件备份数不会变动.重启后,对于修改dfs.replication值之前的文件备份数也不会变动.我有两个datanode节点,测试的时候,先设置dfs.replication的值为1,后来改为2.但是如果是由2变为1的话,hadoop也不会帮你将原先两个备份删掉一份的.

雁江区15958824049: hadoop2.2在windows下面如何安装啊 -
凤蒲尤力: Hadoop三种安装模式:单机模式,伪分布式,真正分布式 一 单机模式standalone 单机模式是Hadoop的默认模式.当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置.在这种默认模式下所有3个XML文...

雁江区15958824049: 1.简要描述一下如何安装配置一个apache开源版的hadoop?
凤蒲尤力: 我纯手敲两个版本的安装过程,望采纳,首先说1.0版本的 一.准备好安装环境 1.配置每个结点的IP地址,让每个结点之间能互相ping通(如果结点过多可以通过编写脚...

雁江区15958824049: hadoop伪分布式搭建为什么要修改主机名 -
凤蒲尤力: 1.关闭hdfs权限:hdfs-site.xml中 dfs.permissions false 2.检查eclipse插件是否设置了hadoop安装目录:将与linux下安装的hadoop相同版本的hadoop解压到windows下一个文件夹,然后指定hadoop插件目录,插件目录在preferences的map/reduce的hadoop installation location 3.在windows的hosts文件中添加hadoop所有节点的ip和主机名 4.关闭linux系统防火墙 5.把hadoop三个配置文件中涉及到的主机名全部改成ip地址,master和salves文件也改成ip

雁江区15958824049: java程序怎么向远程的hadoop提交mapreduce任务 -
凤蒲尤力: 你使用的是hdfs,但你在Configuration中只设置了mapred.job.tracker值,这个是jobtracker的地址,你需要设置namenode的地址.而放到集群时在new Configuration时会自动加载集群的配置文件,如core-site.xml,hdfs-site.xml等 解决方法:1)直接调用Configuration的set方法为fs.default.name设置值,值为namenode地址2)直接将集群的三个*-site.xml配置文件放入项目的classpath下,简单方便

雁江区15958824049: 下列()方式均可正确启动Hadoop. - 上学吧
凤蒲尤力: HDFS 上每个数据节点最多能存储多少数据取决于节点的硬盘大小. 对于单个节点来说,其存储的容量为磁盘容量减去hdfs-site.xml配置文件中dfs.datanode.du.reserved参数值.对于集群来说,取决于集群中所有DataNode节点的硬盘大小之和.但是需要注意考虑集群的备份数量,假设备份数量为3,集群总容量为3TB,则实际可以存储1TB的文件.

雁江区15958824049: 如何验证hadoop client安装是否成功 -
凤蒲尤力: 5.1. 进入hadoop目录 cd /home/hadoop/hadoopinstall/hadoop 5.2. 运行bin目录下的hadoop文件,格式化namenode节点 bin/hadoop namenode -format 5.3. 运行bin目录下的start-all.sh文件,启动hadoop集群 bin/start-all.sh 5.4. jps验证进程是否启...

雁江区15958824049: 搭建一个hadoop2.x需要准备哪些软件 -
凤蒲尤力: 工具/原料 linux系统(本篇使用的是CentOS v6.5) Hadoop安装包(本篇使用的是hadoop v2.6.0) 环境要求1 需要安装JDK6.0以上版本(可自行解压安装或使用自带的软件安装包,如yum)2 需要无密码登录的SSH环境(安装ssh及sshd,具体...

雁江区15958824049: 如何配置Hadoop环境 -
凤蒲尤力: 如何配置Hadoop环境 eclipse下去”java“下配置环境变量位置即可. 第一步:点击菜单栏的”windows“,之后选择”preference“. 第二步:找到”java“菜单下的”installed“,之后在此页面下点击”add“. 第三步:找到”jdk“的安装路径,之后点击”finsh“即可完成项目jdk环境变...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网