您的位置:

Hadoop集群部署

一、硬件配置

为确保Hadoop高效运行,需要一定的硬件配置。基本要求如下:

1、每个节点的CPU最好是多核的

2、每个节点至少8GB的内存(推荐16GB)

3、每个节点至少有2块硬盘(一块用于操作系统和软件的安装,一块用于存储数据)

二、环境准备

在确保硬件满足以上要求后,需要进行以下环境准备:

1、安装Java JDK,并设置环境变量

export JAVA_HOME=/usr/java/latest
export PATH=$JAVA_HOME/bin:$PATH

2、安装SSH服务,并在所有节点上生成SSH秘钥

ssh-keygen -t rsa

3、设置所有节点的主机名和IP地址

vi /etc/hosts
192.168.0.101 node1
192.168.0.102 node2
192.168.0.103 node3

三、Hadoop安装

1、下载Hadoop压缩包并解压

wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar -zxvf hadoop-2.10.1.tar.gz

2、配置hadoop-env.sh文件

vi hadoop-2.10.1/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/java/latest

3、配置core-site.xml文件

vi hadoop-2.10.1/etc/hadoop/core-site.xml
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:9000</value>
  </property>
</configuration>

4、配置hdfs-site.xml文件

vi hadoop-2.10.1/etc/hadoop/hdfs-site.xml
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/data/hadoop/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/data/hadoop/datanode</value>
  </property>
</configuration>

5、配置yarn-site.xml文件

vi hadoop-2.10.1/etc/hadoop/yarn-site.xml
<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>node1:8032</value>
  </property>
  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>node1:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>node1:8031</value>
  </property>
  <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>node1:8033</value>
  </property>
  <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>4096</value>
  </property>
</configuration>

6、在所有节点上分别设置环境变量

export HADOOP_HOME=/data/hadoop/hadoop-2.10.1
export PATH=$HADOOP_HOME/bin:$PATH

7、在主节点上格式化HDFS文件系统

hdfs namenode -format

四、启动Hadoop

1、启动HDFS

start-dfs.sh

2、启动YARN

start-yarn.sh

3、在浏览器中访问http://node1:50070/,可以查看HDFS的状态

4、在浏览器中访问http://node1:8088/,可以查看YARN的状态

五、运行MapReduce示例程序

1、上传测试用的文件到HDFS

hdfs dfs -mkdir /input
hdfs dfs -put $HADOOP_HOME/etc/hadoop/* /input

2、运行WordCount示例程序

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /input /output

3、将输出文件从HDFS中下载到本地

mkdir output
hdfs dfs -get /output/* output/

六、关闭Hadoop

1、关闭YARN

stop-yarn.sh

2、关闭HDFS

stop-dfs.sh