一、CDH安装教程
首先,我们需要了解CDH是什么。Cloudera Distribution of Hadoop(CDH)是一个基于Apache Hadoop的发行版,它是用于大数据的开源平台。使用CDH,您可以管理和处理数千台服务器上的PB级数据。CDH安装的前提是您需要先准备好具有至少8GB的64位服务器。接下来,让我们一步步进行CDH的安装。
1、创建Cloudera Repository。打开终端,输入以下命令:
wget https://archive.cloudera.com/cm7/7.4.6/redhat7/yum/cloudera-manager.repo sudo mv cloudera-manager.repo /etc/yum.repos.d/
2、安装jdk。在终端中输入以下命令:
sudo yum install oracle-j2sdk1.8
3、安装Cloudera Manager Server。在终端中输入以下命令:
sudo yum install cloudera-manager-server
4、启动Cloudera Manager Server。在终端中输入以下命令:
sudo systemctl start cloudera-scm-server
5、安装Cloudera Manager Agent。在终端中输入以下命令:
sudo yum install cloudera-manager-agent
6、启动Cloudera Manager Agent。在终端中输入以下命令:
sudo systemctl start cloudera-scm-agent
二、CDH安装部署
1、为了使CDH集群能够正常工作,您需要设置每个节点的主机名和IP地址。在终端中输入以下命令:
sudo vi /etc/hosts
2、在Hosts文件中添加每个节点的IP地址和主机名。例如:
192.168.1.1 node1 192.168.1.2 node2 192.168.1.3 node3
3、使用Cloudera Manager启动集群,打开浏览器,输入“http://your-server:7180/”,按照提示进行操作即可。
三、CDH安装hive报错
在CDH安装hive时,可能会遇到以下报错:
Hive Metastore is not starting
这是因为hive默认的metastore是采用derby方式的,如果您的数据量比较大,那么就会导致启动失败。为了解决这个问题,我们可以将metastore改为MySQL方式。
1、首先安装MySQL数据库。在终端中输入以下命令:
sudo yum install mysql-server sudo systemctl start mysqld.service sudo /usr/bin/mysql_secure_installation
2、在mysql中创建hive用户和hive数据库。在终端中输入以下命令:
mysql -u root -p Enter password: create user 'hive'@'%' identified by 'hive'; create database hive; grant all privileges on hive.* to 'hive'@'%'; flush privileges; quit;
3、在hive-site.xml中增加MySQL metastore的配置:
<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://node1:3306/hive</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>hive</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>hive</value> </property>
4、重新启动CDH服务。
四、CDH安装集群
如果您需要在CDH上部署一整个集群,可以按照以下步骤进行操作:
1、选择多个节点作为CDH集群的节点。
2、在每个节点上都安装CDH的核心服务,如HDFS、YARN、Hive等。
3、使用Cloudera Manager进行集群管理。在“Hosts and Services”中添加集群内的每个节点,并分别安装各个服务。
4、在每个节点上都应配置正确的主机名和IP地址,以保证集群节点能够彼此通信。
五、CDH安装hive
1、在CDH上安装hive。在终端中输入以下命令:
sudo yum install hive
2、在hive-site.xml中添加相关配置。例如:
<property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> </property> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:derby:/var/lib/hive/metastore/metastore_db;create=true</value> </property> <property> <name>hive.server2.enable.doAs</name> <value>false</value> </property>
3、启动hive服务。
六、CDH安装flink
1、在CDH上安装flink。在终端中输入以下命令:
sudo yum install flink
2、配置flink。在flink-conf.yaml文件中进行配置。例如:
jobmanager.rpc.address: node1
3、启动flink。在终端中输入以下命令:
flink start-foreground
七、CDH安装包在哪下载
CDH安装包可以从Cloudera的官方网站进行下载:https://www.cloudera.com/downloads.html。
八、CDH安装包下载
1、打开Cloudera的官方网站,选择需要下载的版本和操作系统。例如:
https://www.cloudera.com/downloads/cdh/7-1-7.html
2、下载对应的CDH安装包。
九、CDH安装HUdi
1、安装HUdi插件。在终端中输入以下命令:
sudo yum install hudi
2、在hive-site.xml中添加HUdi的配置。例如:
<property> <name>hive.aux.jars.path</name> <value>file:///usr/lib/hudi/hudi-utilities-bundle.jar</value> </property>
3、使用HUdi。在终端中输入以下命令:
hudi-cli