Mapreduce Tarball
你需要有MapReduce tarball,如果没有的话那么你需要从源文件中创建一个,执行命令如下:
$ mvn clean install -DskipTests $ cd hadoop-mapreduce-project $ mvn clean install assembly:assembly -Pnative
注意:你需要安装protoc 2.5.0 。
如果需要忽略本地化编译那么你可以去掉在maven中去掉 -Pnative参数,Tarball会在target/ 目录中生成。
设置环境变量
假定你已经安装了hadoop-common/hadoop-hdfs,并且已经设置了$HADOOP_COMMON_HOME/$HADOOP_HDFS_HOME,解压hadoop mapreduce tarball 并设置环境变量$HADOOP_MAPRED_HOME到解压的目录中去,同时也设置 $HADOOP_YARN_HOME 环境变量。
注意:下面的操作假定你的hdfs已经开始运行。
设置配置文件
启动ResourceManager 和 NodeManager之前你需要更新配置文件。假定$HADOOP_CONF_DIR是你的配置文件所在的目录并且已经为hdfs和 core-site.xml做了配置。那么有2个文件你需要去设置 mapred-site.xml 和 yarn-site.xml
mapred-site.xml配置
在 mapred-site.xml中加入如下配置:
<property> <name>mapreduce.cluster.temp.dir</name> <value></value> <description>No description</description> <final>true</final> </property> <property> <name>mapreduce.cluster.local.dir</name> <value></value> <description>No description</description> <final>true</final> </property>
yarn-site.xml配置
在你的yarn-site.xml中加入如下信息:
<property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>host:port</value> <description>host is the hostname of the resource manager and port is the port on which the NodeManagers contact the Resource Manager. </description> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>host:port</value> <description>host is the hostname of the resourcemanager and port is the port on which the Applications in the cluster talk to the Resource Manager. </description> </property> <property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value> <description>In case you do not want to use the default scheduler</description> </property> <property> <name>yarn.resourcemanager.address</name> <value>host:port</value> <description>the host is the hostname of the ResourceManager and the port is the port on which the clients can talk to the Resource Manager. </description> </property> <property> <name>yarn.nodemanager.local-dirs</name> <value></value> <description>the local directories used by the nodemanager</description> </property> <property> <name>yarn.nodemanager.address</name> <value>0.0.0.0:port</value> <description>the nodemanagers bind to this port</description> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>10240</value> <description>the amount of memory on the NodeManager in GB</description> </property> <property> <name>yarn.nodemanager.remote-app-log-dir</name> <value>/app-logs</value> <description>directory on hdfs where the application logs are moved to </description> </property> <property> <name>yarn.nodemanager.log-dirs</name> <value></value> <description>the directories used by Nodemanagers as log directories</description> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> <description>shuffle service that needs to be set for Map Reduce to run </description> </property>
配置capacity-scheduler.xml文件
确保root queues已经在capacity-scheduler.xml中设置:
<property> <name>yarn.scheduler.capacity.root.queues</name> <value>unfunded,default</value> </property> <property> <name>yarn.scheduler.capacity.root.capacity</name> <value>100</value> </property> <property> <name>yarn.scheduler.capacity.root.unfunded.capacity</name> <value>50</value> </property> <property> <name>yarn.scheduler.capacity.root.default.capacity</name> <value>50</value> </property>
运行守护进程
假定你的环境变量$HADOOP_COMMON_HOME, $HADOOP_HDFS_HOME, $HADOO_MAPRED_HOME, $HADOOP_YARN_HOME,$JAVA_HOME and $HADOOP_CONF_DIR都已经配置好了。跟配置 $HADOOP_CONF_DIR一样配置好$YARN_CONF_DIR。
执行如下命令启动ResourceManager 和NodeManager :
$ cd $HADOOP_MAPRED_HOME $ sbin/yarn-daemon.sh start resourcemanager $ sbin/yarn-daemon.sh start nodemanager
你可以执行randomwriter 来查看是否启动:
$ $HADOOP_COMMON_HOME/bin/hadoop jar hadoop-examples.jar randomwriter out
相关推荐
资源名称:CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南内容简介: CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南主要讲述的是CentOS 6.5 x64下安装19实体节点Hadoop 2.2.0集群配置指南;...
Hadoop2.2.0完全分布式集群平台安装设置 HDFS HA架构: 1、先设定电脑的IP为静态地址: 2、设置各个主机的hostname 3、在所有电脑的/etc/hosts添加以下配置: 4、设置SSH无密码登陆 5、下载解压hadoop-2.2.0.tar.gz...
Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程 按照文档中的操作步骤,一步步操作就可以完全实现hadoop2.2.0版本的完全分布式集群搭建过程
Hadoop2.2.0 native lib 直接替换掉 2.2.0 发布包里面的nativeIO ,配置好环境变量就可以了 东西虽然小,但是却费了不少功夫,主要是由于本地网络控制,不允许上网。安装各种软件就费了很大劲,软件之间的依赖也很...
Hadoop2.2.0安装配置手册,新手安装和配置
Hadoop 2.2.0 配置文件 在4台CentOs 6.4版本下运行成功
Hadoop 2.2.0版本中在64为linux系统上运行所需要的native库文件。需要时用此native文件夹覆盖Hadoop 2.2.0中native文件夹即可。
自己配了一遍hadoop2.2.0,写给新手,绝对详细,后面还有一个配好了的测试文档,在我的资源里找
hadoop2.2.0集群搭建
hadoop2.2.0/2.6.0/2.7.0/2.7.1 64位安装包。
Hadoop官网上下载的hadoop-2.2.0安装包是32位的,直接运行在64位的linux系统上会有问题,所以需要自己将hadoop-2.2.0安装包编译为64位。
本文档主要详细介绍了Hadoop 2.2.0版本的编译安装过程。
Hadoop 2.2.0 分布式安装指导
hadoop2.2.0安装指南
本文档堪称最齐全的Hadoop-2.2.0搭建手册,不管是对于生手,还是对于想自己动手搭建的生手来说,都是非常有用的;因为自己是生手,看网上好多步骤,但还是有不懂的地方,所以自己整理下来了齐全的生手版,希望对一切...
在CentSO_64bit集群搭建,hadoop2.2(64位)编译 新版亮点: 基于yarn计算框架和高可用性DFS的第一个稳定版本。 注1:官网只提供32位release版本, 若机器为64位,需要手动编译。 环境配置是个挺烦人的活,麻烦不说还...
Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程.
此hadoop是hadoop-2.2.0是32位的编译出来的,亲测可用