您的位置:

datax下载详解

一、下载datax

1、打开datax GitHub源码地址https://github.com/alibaba/DataX,下载对应版本的datax。

2、下载完成后解压,并将解压得到的文件夹名字命名为datax,以便后续方便使用。

二、配置datax

1、进入datax目录,找到datax/conf目录下的job文件,这里以job.json为例。

{
    "job": {
        "setting": {
            "speed": {
                "channel": "1"   //同步通道数
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "password",
                        "column": [
                            "id",
                            "name"
                        ],
                        "connection": [
                            {
                                "url": [
                                    "jdbc:mysql://ip:port/db?useSSL=false&serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=UTF-8"
                                ],
                                "table": [
                                    "tableName"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "streamwriter",
                    "parameter": {
                    }
                }
            }
        ]
    }
}

2、根据实际需要修改对应内容,例如:

  • connection的url:ip、port、db和tableName改为实际值;
  • column改为需要同步的字段;
  • writer的name改为对应的数据同步方式。

三、执行datax

在datax目录下执行命令:./bin/datax.py job/job.json。执行完成后可以在控制台看到同步进度。

四、datax常见问题

1、datax启动报错

datax.py: command not found

将datax目录加入环境变量。例如在bash_profile中添加export PATH=$PATH:path/to/datax,生效后再执行datax。

2、同步速度较慢

可调整job.json中同步通道数speed的channel值,可以适当增加速度。

3、中文乱码

在connection的url中添加useUnicode=true&characterEncoding=UTF-8。

五、总结

以上就是datax下载和使用的详细过程,包括下载、配置和执行等步骤。在使用过程中如有遇到问题,可以参考常见问题解决。datax是一个非常实用的数据同步工具,可以帮助我们更方便地处理数据同步任务。