一、硬件配置
为确保Hadoop高效运行,需要一定的硬件配置。基本要求如下:
1、每个节点的CPU最好是多核的
2、每个节点至少8GB的内存(推荐16GB)
3、每个节点至少有2块硬盘(一块用于操作系统和软件的安装,一块用于存储数据)
二、环境准备
在确保硬件满足以上要求后,需要进行以下环境准备:
1、安装Java JDK,并设置环境变量
export JAVA_HOME=/usr/java/latest
export PATH=$JAVA_HOME/bin:$PATH
2、安装SSH服务,并在所有节点上生成SSH秘钥
ssh-keygen -t rsa
3、设置所有节点的主机名和IP地址
vi /etc/hosts
192.168.0.101 node1
192.168.0.102 node2
192.168.0.103 node3
三、Hadoop安装
1、下载Hadoop压缩包并解压
wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar -zxvf hadoop-2.10.1.tar.gz
2、配置hadoop-env.sh文件
vi hadoop-2.10.1/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/java/latest
3、配置core-site.xml文件
vi hadoop-2.10.1/etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://node1:9000</value>
</property>
</configuration>
4、配置hdfs-site.xml文件
vi hadoop-2.10.1/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/data/hadoop/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/data/hadoop/datanode</value>
</property>
</configuration>
5、配置yarn-site.xml文件
vi hadoop-2.10.1/etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>node1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>node1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>node1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>node1:8033</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>4096</value>
</property>
</configuration>
6、在所有节点上分别设置环境变量
export HADOOP_HOME=/data/hadoop/hadoop-2.10.1
export PATH=$HADOOP_HOME/bin:$PATH
7、在主节点上格式化HDFS文件系统
hdfs namenode -format
四、启动Hadoop
1、启动HDFS
start-dfs.sh
2、启动YARN
start-yarn.sh
3、在浏览器中访问http://node1:50070/,可以查看HDFS的状态
4、在浏览器中访问http://node1:8088/,可以查看YARN的状态
五、运行MapReduce示例程序
1、上传测试用的文件到HDFS
hdfs dfs -mkdir /input
hdfs dfs -put $HADOOP_HOME/etc/hadoop/* /input
2、运行WordCount示例程序
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /input /output
3、将输出文件从HDFS中下载到本地
mkdir output
hdfs dfs -get /output/* output/
六、关闭Hadoop
1、关闭YARN
stop-yarn.sh
2、关闭HDFS
stop-dfs.sh