标签(空格分隔): 协作框架
一:data-web 的介绍
关于datax-web项目
在做DataX项目测试的时候又收到github的推荐邮件,推荐了一个datax-web的开源项目,这不是瞌睡遇到枕头,再研究研究这个项目是不是符合数据同步的要求。
datax-web : https://github.com/WeiYe-Jing/datax-web
主要的功能: https://github.com/WeiYe-Jing/datax-web#features
DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,
降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。
用户可通过页面选择数据源即可创建数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、
MongoDB等数据源,RDBMS数据源可批量创建数据同步任务,
支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发xxl-job可根据时间、
自增主键增量同步数据。
任务"执行器"支持集群部署,支持执行器多节点路由策略选择,支持超时控制、失败重试、失败告警、
任务依赖,执行器CPU.内存.负载的监控等等。后续还将提供更多的数据源支持、数据转换UDF、
表结构同步、数据同步血缘等更为复杂的业务场景。
系统说明
IP: 172.30.10.12
系统: centos7.9x64
已安装: DataX 、mysql5.7
基础软件安装
MySQL (5.5+) 必选,对应客户端可以选装, Linux服务上若安装mysql的客户端可以通过部署脚本快速初始化数据库
JDK (1.8.0_xxx) 必选
Maven (3.6.1+) 必选
DataX 必选
Python (2.x) (支持Python3需要修改替换datax/bin下面的三个python文件,替换文件在doc/datax-web/datax-python3下) 必选,主要用于调度执行底层DataX的启动脚本,默认的方式是以Java子进程方式执行DataX,用户可以选择以Python方式来做自定义的改造
基础软件安装参照: https://github.com/WeiYe-Jing/datax-web/blob/master/doc/datax-web/datax-web-deploy-V2.1.1.md
DataX Web安装包准备
下载官方提供的版本tar版本包:点击下载 https://pan.baidu.com/s/13yoqhGpD00I82K4lOYtQhg 提取码:cpsk
备用下载: http://js.funet8.com/centos_software/datax-web-2.1.2.tar.gz
cd /opt/bigdata/
wget http://js.funet8.com/centos_software/datax-web-2.1.2.tar.gz
tar -zxvf datax-web-2.1.2.tar.gz
cd datax-web-2.1.2/bin
./install.sh
cat ./modules/datax-admin/conf/bootstrap.properties
vim /opt/bigdata/datax-web-2.1.2/modules/datax-admin/conf/application.yml
---
password: flyfish225
username: root
url: jdbc:mysql://172.16.30.11:3306/dataxweb?serverTimezone=Asia/Shanghai&useLegacyDatetimeCode=false&useSSL=false&nullNamePatternMatchesAll=true&useUnicode=true&characterEncoding=UTF-8
---
配置
安装完成之后,在项目目录: /modules/datax-admin/bin/env.properties 配置邮件服务(可跳过)
----
# cat ./modules/datax-admin/bin/env.properties
MAIL_USERNAME=""
MAIL_PASSWORD=""
---
此文件中包括一些默认配置参数,例如:server.port,具体请查看文件。
在项目目录下/modules/datax-execute/bin/env.properties 指定PYTHON_PATH的路径
vi ./modules/datax-execute/bin/env.properties
### 执行datax的python脚本地址
PYTHON_PATH=
### 保持和datax-admin服务的端口一致;默认是9527,如果没改datax-admin的端口,可以忽略
DATAX_ADMIN_PORT=
# vi ./modules/datax-executor/bin/env.properties
## PYTHON脚本执行位置
#PYTHON_PATH=/home/hadoop/install/datax/bin/datax.py
PYTHON_PATH=/opt/bigdata/datax/bin/datax.py
一键启动所有服务
./bin/start-all.sh
http://172.16.30.11:9527/index.html
admin/123456