本文目录一览:
- 1、Hadoop和Mysql联合查询
- 2、mysql中数据怎么导入hadoop
- 3、hadoop和mysql的结合作用方案
- 4、hadoop可以用mysql作为数据库吗
- 5、怎么将mysql数据导入hadoop
- 6、如何将mysql数据导入hadoop
Hadoop和Mysql联合查询
你可以先用hive或者手写map/reduce程序。建议你直接使用hive,hive也像mysql一样可以建表。表里的数据就是对应从本地load到hadoop上的文件,格式自己定。然后用JDBC可以像操作mysql一样操作hive(sql语法稍有不同),把分析出来的数据再insert到mysql中去
mysql中数据怎么导入hadoop
通过Map/Reduce进行批处理递送到Apache
Hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增,因此Hadoop(分布式文件系统)自身经历重大的发展。科技的发展允许实时查询,如Apache
Drill,Cloudera
Impala和Stinger
Initiative正脱颖而出,新一代的资源管理Apache
YARN
支持这些。
为了支持这种日渐强调实时性操作,发布一个新MySQL
Applier
for
Hadoop(用于Hadoop的MySQL
Applier)组件。它能够把MySQL中变化的事务复制到Hadoop
/
Hive
/
HDFS。Applier
组件补充现有基于批处理Apache
Sqoop的连接性。
这个组件(MySQL
Applier
for
Hadoop)的复制是通过连接MySQL主服务,一旦二进制日志被提交,就读取二进制日志事务,并且把它们写到HDFS.
这个组件使用libhdfs提供的API,一个C库操作HDFS中的文件。这库由Hadoop版本预编译生成的。
它连接MySQL主服务读二进制日志,然后提取发生在主服务上的行插入事件,解码事件,提取插入到行的每个字段的数据,并使用满意的处理程序得到被要求的格式数据。把它追加到HDFS
中一个文本文件。
数据库被映射为单独的目录,它们的表映射为子目录,保存在数据仓库目录。每个表的数据被写到Hive/
HDFS中文本文件(称为datafile1.txt)。数据可以用逗号格式分隔;或其他格式,那可用命令行参数来配置的。
hadoop和mysql的结合作用方案
首先你的源数据是想存在mysql里,还是存到hadoop 里。
有一些方案是把最原始的数据,存入hadoop中。定期做清洗和分析,把处理好的数据放到mysql库里,供web应用读取,展示到页面上。
hadoop可以用mysql作为数据库吗
hadoop一般是应用于冷数据处理,对于实时数据,如果非要使用,可以变着方法使用。
方法一:在hadoop上使用hbase数据库,以为hbase是不走Map/Reduce的,所以操作在毫秒级。
方法二:将业务数据用程序分成实时数据和冷数据,实时数据存于关系数据库,冷数据存到hadoop。比如:将最近一个月的数据存到关系数据库,用做实时响应业务处理。将一个月以前的数据存到hadoop,用作历史数据查询以及统计分析,数据挖掘等。
怎么将mysql数据导入hadoop
通过Map/Reduce进行批处理递送到Apache
Hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增,因此Hadoop(分布式文件系统)自身经历重大的发展。科技的发展允许实时查询,如Apache
Drill,Cloudera
Impala和Stinger
Initiative正脱颖而出,新一代的资源管理Apache
YARN
支持这些。
为了支持这种日渐强调实时性操作,发布一个新MySQL
Applier
for
Hadoop(用于Hadoop的MySQL
Applier)组件。它能够把MySQL中变化的事务复制到Hadoop
/
Hive
/
HDFS。Applier
组件补充现有基于批处理Apache
Sqoop的连接性。
这个组件(MySQL
Applier
for
Hadoop)的复制是通过连接MySQL主服务,一旦二进制日志被提交,就读取二进制日志事务,并且把它们写到HDFS.
这个组件使用libhdfs提供的API,一个C库操作HDFS中的文件。这库由Hadoop版本预编译生成的。
它连接MySQL主服务读二进制日志,然后提取发生在主服务上的行插入事件,解码事件,提取插入到行的每个字段的数据,并使用满意的处理程序得到被要求的格式数据。把它追加到HDFS
中一个文本文件。
数据库被映射为单独的目录,它们的表映射为子目录,保存在数据仓库目录。每个表的数据被写到Hive/
HDFS中文本文件(称为datafile1.txt)。数据可以用逗号格式分隔;或其他格式,那可用命令行参数来配置的。
如何将mysql数据导入hadoop
完成sqoop的安装后,可以这样测试是否可以连接到mysql(注意:mysql的jar包要放到 SQOOP_HOME/lib 下):
sqoop list-databases --connect jdbc:mysql://192.168.1.109:3306/ --username root --password 19891231
结果如下
即说明sqoop已经可以正常使用了。
下面,要将mysql中的数据导入到hadoop中。
我准备的是一个300万条数据的身份证数据表:
先启动hive(使用命令行:hive 即可启动)
然后使用sqoop导入数据到hive:
sqoop import --connect jdbc:mysql://192.168.1.109:3306/hadoop --username root --password 19891231 --table test_sfz --hive-import
sqoop 会启动job来完成导入工作。
完成导入用了2分20秒,还是不错的。
在hive中可以看到刚刚导入的数据表:
我们来一句sql测试一下数据:
select * from test_sfz where id 10;
可以看到,hive完成这个任务用了将近25秒,确实是挺慢的(在mysql中几乎是不费时间),但是要考虑到hive是创建了job在hadoop中跑,时间当然多。
接下来,我们会对这些数据进行复杂查询的测试:
我机子的配置如下:
hadoop 是运行在虚拟机上的伪分布式,虚拟机OS是ubuntu12.04 64位,配置如下:
TEST 1 计算平均年龄
测试数据:300.8 W
1. 计算广东的平均年龄
mysql:select (sum(year(NOW()) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz where address like '广东%';
用时: 0.877s
hive:select (sum(year('2014-10-01') - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz where address like '广东%';
用时:25.012s
2. 对每个城市的的平均年龄进行从高到低的排序
mysql:select
address, (sum(year(NOW()) - SUBSTRING(borth,1,4))/count(*)) as ageAvge
from test_sfz GROUP BY address order by ageAvge desc;
用时:2.949s
hive:select
address, (sum(year('2014-10-01') - SUBSTRING(borth,1,4))/count(*)) as
ageAvge from test_sfz GROUP BY address order by ageAvge desc;
用时:51.29s
可以看到,在耗时上面,hive的增长速度较mysql慢。
TEST 2
测试数据:1200W
mysql 引擎: MyISAM(为了加快查询速度)
导入到hive:
1. 计算广东的平均年龄
mysql:select (sum(year(NOW()) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz2 where address like '广东%';
用时: 5.642s
hive:select (sum(year('2014-10-01') - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz2 where address like '广东%';
用时:168.259s
2. 对每个城市的的平均年龄进行从高到低的排序
mysql:select
address, (sum(year(NOW()) - SUBSTRING(borth,1,4))/count(*)) as ageAvge
from test_sfz2 GROUP BY address order by ageAvge desc;
用时:11.964s
hive:select
address, (sum(year('2014-10-01') - SUBSTRING(borth,1,4))/count(*)) as
ageAvge from test_sfz2 GROUP BY address order by ageAvge desc;
用时:311.714s