Hadoop是一个分布式计算框架,它能够快速地处理海量数据。在这里,我们将详细讲述如何在Ubuntu系统上安装和配置Hadoop。
一、安装Java
在安装Hadoop之前,我们需要先安装Java运行环境。Ubuntu系统默认安装的是OpenJDK,但是Hadoop官方推荐使用Oracle JDK。因此,我们需要先安装Oracle JDK。
$sudo add-apt-repository ppa:webupd8team/java $sudo apt-get update $sudo apt-get install oracle-java8-installer
安装完成后,我们可以通过以下命令验证Java版本:
$java -version
如果输出了Java版本信息,则说明Java安装成功。
二、安装Hadoop
从官网下载Hadoop二进制文件(tar.gz格式),并解压到合适的目录:
$tar -zxvf hadoop-3.2.1.tar.gz $sudo mv hadoop-3.2.1 /usr/local/hadoop
然后配置Hadoop环境变量:
$echo "export HADOOP_HOME=/usr/local/hadoop" >> ~/.bashrc $echo "export PATH=\${PATH}:\${HADOOP_HOME}/bin:\${HADOOP_HOME}/sbin" >> ~/.bashrc $source ~/.bashrc
三、配置Hadoop
接下来,我们需要配置Hadoop的相关文件。
1. 配置hadoop-env.sh
在Hadoop的根目录下找到hadoop-env.sh文件,将以下代码添加到文件末尾:
export JAVA_HOME=/usr/lib/jvm/java-8-oracle
2. 配置core-site.xml
在Hadoop的conf目录下创建core-site.xml文件,并将以下代码添加到文件中:
<?xml version="1.0" ?> <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
3. 配置hdfs-site.xml
在Hadoop的conf目录下创建hdfs-site.xml文件,并将以下代码添加到文件中:
<?xml version="1.0" ?> <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/var/lib/hadoop/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/var/lib/hadoop/datanode</value> </property> </configuration>
4. 配置mapred-site.xml
在Hadoop的conf目录下复制一份mapred-site.xml.template并命名为mapred-site.xml,然后将以下代码添加到文件中:
<?xml version="1.0" ?> <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
5. 配置yarn-site.xml
在Hadoop的conf目录下创建yarn-site.xml文件,并将以下代码添加到文件中:
<?xml version="1.0" ?> <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> </configuration>
四、启动Hadoop
先格式化Hadoop的文件系统:
$hadoop namenode -format
启动Hadoop:
$start-dfs.sh $start-yarn.sh
验证Hadoop服务状态:
$jps
如果输出以下内容,则说明Hadoop服务已经启动成功:
111 NameNode 222 SecondaryNameNode 333 DataNode 444 ResourceManager 555 NodeManager
现在,你已经成功地安装和配置了Hadoop。你可以通过Hadoop web管理界面访问http://localhost:9870来查看Hadoop的文件系统信息。