您的位置:

CDH安装指南

一、CDH安装教程

首先,我们需要了解CDH是什么。Cloudera Distribution of Hadoop(CDH)是一个基于Apache Hadoop的发行版,它是用于大数据的开源平台。使用CDH,您可以管理和处理数千台服务器上的PB级数据。CDH安装的前提是您需要先准备好具有至少8GB的64位服务器。接下来,让我们一步步进行CDH的安装。

1、创建Cloudera Repository。打开终端,输入以下命令:

wget https://archive.cloudera.com/cm7/7.4.6/redhat7/yum/cloudera-manager.repo
sudo mv cloudera-manager.repo /etc/yum.repos.d/

2、安装jdk。在终端中输入以下命令:

sudo yum install oracle-j2sdk1.8

3、安装Cloudera Manager Server。在终端中输入以下命令:

sudo yum install cloudera-manager-server

4、启动Cloudera Manager Server。在终端中输入以下命令:

sudo systemctl start cloudera-scm-server

5、安装Cloudera Manager Agent。在终端中输入以下命令:

sudo yum install cloudera-manager-agent

6、启动Cloudera Manager Agent。在终端中输入以下命令:

sudo systemctl start cloudera-scm-agent

二、CDH安装部署

1、为了使CDH集群能够正常工作,您需要设置每个节点的主机名和IP地址。在终端中输入以下命令:

sudo vi /etc/hosts

2、在Hosts文件中添加每个节点的IP地址和主机名。例如:

192.168.1.1 node1
192.168.1.2 node2
192.168.1.3 node3

3、使用Cloudera Manager启动集群,打开浏览器,输入“http://your-server:7180/”,按照提示进行操作即可。

三、CDH安装hive报错

在CDH安装hive时,可能会遇到以下报错:

Hive Metastore is not starting

这是因为hive默认的metastore是采用derby方式的,如果您的数据量比较大,那么就会导致启动失败。为了解决这个问题,我们可以将metastore改为MySQL方式。

1、首先安装MySQL数据库。在终端中输入以下命令:

sudo yum install mysql-server
sudo systemctl start mysqld.service
sudo /usr/bin/mysql_secure_installation

2、在mysql中创建hive用户和hive数据库。在终端中输入以下命令:

mysql -u root -p
Enter password:
create user 'hive'@'%' identified by 'hive';
create database hive;
grant all privileges on hive.* to 'hive'@'%';
flush privileges;
quit;

3、在hive-site.xml中增加MySQL metastore的配置:

<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://node1:3306/hive</value>
</property>
<property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
</property>
<property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>hive</value>
</property>
<property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>hive</value>
</property>

4、重新启动CDH服务。

四、CDH安装集群

如果您需要在CDH上部署一整个集群,可以按照以下步骤进行操作:

1、选择多个节点作为CDH集群的节点。

2、在每个节点上都安装CDH的核心服务,如HDFS、YARN、Hive等。

3、使用Cloudera Manager进行集群管理。在“Hosts and Services”中添加集群内的每个节点,并分别安装各个服务。

4、在每个节点上都应配置正确的主机名和IP地址,以保证集群节点能够彼此通信。

五、CDH安装hive

1、在CDH上安装hive。在终端中输入以下命令:

sudo yum install hive

2、在hive-site.xml中添加相关配置。例如:

<property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse</value>
</property>
<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:derby:/var/lib/hive/metastore/metastore_db;create=true</value>
</property>
<property>
    <name>hive.server2.enable.doAs</name>
    <value>false</value>
</property>

3、启动hive服务。

六、CDH安装flink

1、在CDH上安装flink。在终端中输入以下命令:

sudo yum install flink

2、配置flink。在flink-conf.yaml文件中进行配置。例如:

jobmanager.rpc.address: node1

3、启动flink。在终端中输入以下命令:

flink start-foreground

七、CDH安装包在哪下载

CDH安装包可以从Cloudera的官方网站进行下载:https://www.cloudera.com/downloads.html

八、CDH安装包下载

1、打开Cloudera的官方网站,选择需要下载的版本和操作系统。例如:

https://www.cloudera.com/downloads/cdh/7-1-7.html

2、下载对应的CDH安装包。

九、CDH安装HUdi

1、安装HUdi插件。在终端中输入以下命令:

sudo yum install hudi

2、在hive-site.xml中添加HUdi的配置。例如:

<property>
    <name>hive.aux.jars.path</name>
    <value>file:///usr/lib/hudi/hudi-utilities-bundle.jar</value>
</property>

3、使用HUdi。在终端中输入以下命令:

hudi-cli