如何测试大数据软件工具,大数据和软件测试
原文链接:可以用这个大数据道具来抓牛。
人的芦苇是自然界最脆弱的东西,但他是思想的芦苇。
你好,我是冯毅。前几天同事来找我同步数据。一般要求是定期同步不同服务器上的不同数据库。这立刻让我想到了阿里的离线同步工具DataX,我很久以前就开始用了。因为很久没用了,在具体使用过程中遇到了一些小麻烦。所以,在这里复习总结一下资料。主要分为以下内容。
一. DataX II简介。DataX III的配置。DataX的使用欢迎关注微信微信官方账号,一起交流学习。
DataX概述:角色:DataX是一个异构数据源的同步工具,横跨多个异构数据源,包括关系数据库(MySQL,Oracle等。)、HDFS、Hive、ODPS、HBase和FTP。
DataX框架设计
DataX本身是一个用于离线数据同步的框架,它是由框架规划架构构建的。数据源的读写被抽象为读写器插件,纳入到整个同步框架中。
Reader:Reader是一个数据收集模块,用于从数据源收集数据,并将数据发送到框架。Writer: Writer是一个数据写入模块,负责不断从框架中读取数据,并将数据写入目标。框架:框架用于连接阅读器和写入器,作为两者之间的数据传输通道,处理缓冲、流量控制、并发、数据转换等关键技术问题。经过几年的积累,DataX插件系统现在已经有了全面的插件系统,主流的RDBMS数据库、NOSQL、大数据计算系统都已经连接起来。下面是我们常用的关系数据库。
DataX配置:下载:DataX下载非常方便。可以直接在网上搜索自己下载,然后直接打包使用。下图是解包后的文件。
部署
1.Python版本问题:DataX默认下载支持Python2的版本,但是我们现在大部分人都在用Python3。有两个地方我们需要修改infinite sheep /datax.py文件。打印的不同,异常处理的不同。在这里,冯毅可以直接打开pycharm上的datax.py文件,直接知道哪里有异常,修改后就可以正常使用了。
的默认Python2版本语法显示Python3版本中的异常。
2.数据库的一些配置:必须启动TCP/IP才能使用SQLSERVER数据库。否则,您可能会报告错误或打开它。在桌面上右键管理,然后选择服务和APP应用程序-SQL Server配置器管理-SQL Server网络配置-〖SQL prer〗必须放在lib上,否则MySQL可能无法正常访问,或者datax可能提示插件异常。
3.配置可执行文件. json。
最后,我们配置的数据库的所有正确操作由。json,与数据库相关的读写信息和所需语句必须单独配置。你可以直接在https://github.com/alibaba/DataX网站上查看每个数据库的详细配置。它包含了MySQL读取和Oracle数据库写入的json配置。
使用DataX:datax通过在Python上运行DataX.py并调用的配置文件来运行。json。安装包提供了job.json文件来测试Datax是否正常运行。首先,你需要找到无限的sheep /datax.py文件。然后,cmd进入,代码和结果如下。
调用CHCP65001#datax.py文件解决中文乱码,运行job.json文件python datax.py。作业文件夹中的/job/job.json。