您的位置:

DataX for Windows: 详解

一、DataX for Windows 简介

DataX 是阿里巴巴集团在 ETL 领域开发的一款数据同步工具,支持多种数据源之间的数据交互。而 DataX for Windows 是 DataX 在 Windows 环境下运行的版本,方便 Windows 用户进行数据交互。

与 DataX 的开源社区版本相比,DataX for Windows 有以下特点:

1. Windows 下的 DataX 工具版本号与开源社区版本保持一致。

2. DataX for Windows 提供了自包含的、不依赖于外部运行时环境的安装包。

3. DataX for Windows 对于运行模式、任务监控等方面进行了适配和优化。

二、DataX for Windows 安装

1. 下载 DataX for Windows 安装包。从官方下载地址中选择适合自己的版本:https://github.com/WeiYe-Jing/datax-web/releases

2. 安装 DataX for Windows。 双击下载的安装包,按照界面操作向导完成 DataX for Windows 的安装。

3. 配置 DataX for Windows 的环境变量。

set PATH=%PATH%;datax路径(即安装目录下的bin目录)

三、DataX for Windows 配置

1. 配置 DataX 的数据源。

DataX for Windows 支持多种数据源,包括:

MySQL、Oracle、SQLServer、PostgreSQL、HDFS、Hive、ClickHouse、FTP、OTER等,具体参见 DataX 官方文档。

2. 配置 DataX 的作业信息。

作业包括任务json、数据源信息、Do类型、reader和writer的配置等。

其中 reader是从数据源读取数据, writer是把数据写入目标系统。

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",  
                    "parameter": {
                        "username": "root",
                        "password": "xxx",
                        "column": ["id","name"],
                        "splitPk":"id",
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:mysql://ip:port/dbname"
                                ],
                                "table": [
                                    "user"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "username": "root",
                        "password": "xxx",
                        "writeMode": "replace",
                        "column": ["id","name"],
                        "preSql": [
                            "delete from mysql_user where 1=1"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://ip:port/dbname",
                                "table": [
                                    "mysql_user"
                                ]
                            }
                        ]
                    }
                }
            }
        ],
        "setting": {
            "speed": {
                "byte": 10485760
            }
        }
    }
}

四、DataX for Windows 运行

1. 运行 DataX for Windows

在命令行中输入以下命令,运行DataX for Windows:

python datax.py {task.json的绝对路径}

例如:python datax.py D:\datax\mysql2mysql.json

2. 监控 DataX 任务

在运行 DataX 时,控制台会输出任务的进度、异常等信息,如果需要查看更多任务的监控信息,可以通过查看DataX for Windows 控制台的日志文件 datax.py.log.X 中。

3. Web 界面监控

DataX for Windows 还提供了 Web 界面进行监控,只需要打开浏览器,访问 http://127.0.0.1:9999/datax-web

总结

本文详细阐述了 DataX for Windows 的安装、配置和使用方法,希望能帮助 Windows 用户更加方便地进行数据同步。