一文看懂ETL入门系列之ETL工具的功能
mhr18 2024-10-16 09:54 21 浏览 0 评论
概述
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行。
说白了就是,很有必要去理解一般ETL工具必备的特性和功能,这样才更好的掌握Kettle的使用。今天主要先描述ETL工具的通用功能。
ETL工具的功能之一:连接
任何ETL工具都应该有能力连接到类型广泛的数据源和数据格式。对于最常用的关系型数据库系统,还要提供本地的连接方式(如对于Oracle的OCI),ETL应该能提供下面最基本的功能:
(1)连接到普通关系型数据库并获取数据,如常见的Orcal、MS SQL Server、IBM DB/2、Ingres、MySQL和PostgreSQL。还有很多很多
(2)从有分隔符和固定格式的ASCII文件中获取数据
(3)从XML文件中获取数据
(4)从流行的办公软件中获取数据,如Access数据库和Excel电子表格
(5)使用FTP、SFTP、SSH方式获取数据(最好不用脚本)
(6)还能从Web Services 或 RSS中获取数据。如果还需要一些ERP系统里的数据,如Oracle E-Business Suite、SAP/R3、PeopleSoft 或 JD/Edwards,ETL工具也应该提供到这些系统的连接。
(7)还能提供Salesforce.com和SAP/R3的输入步骤,但不是套件内,需要额外安装。对于其他ERP和财务系统的数据抽取还需要其他解决方案。当然,最通用的方法就是要求这些系统导出文本格式的数据,将文本数据作为数据源。
ETL工具的功能之二:平台独立
一个ETL工具应该能在任何平台下甚至是不同平台的组合上运行。一个32位的操作系统可能在开发的初始阶段运行很好,但是当数据量越来越大时,就需要一个更强大的操作系统。另一种情况,开发一般是在Windows或 Mac机上运行的。而生产环境一般是Linux系统或集群,你的ETL解决方案应该可以无缝地在这些系统间切换。
ETL工具的功能之三:数据规模
一般ETL能通过下面的3种方式来处理大数据。
- 并发:ETL过程能够同时处理多个数据流,以便利用现代多核的硬件架构。
- 分区:ETL能够使用特定的分区模式,将数据分发到并发的数据流中。
- 集群:ETL过程能够分配在多台机器上联合完成。
Kettle是基于Java的解决方案,可以运行在任何安装了Java虚拟机的计算机上(包括Windows、Linux和Mac)。转换里的每个步骤都是以并发的方式来执行,并且可以执行多次,这样加快了处理速度。
Kettle在运行转换时,根据用户的设置,可以将数据以不同的方式发送到多个数据流中(有两种几本发送方式:分发和复制)。分发类似与分发扑克牌,以轮流的方式将每行数据只发给一个数据流,复制是将每行数据发给所有数据流。
为了更精确控制数据,Kettle还使用了分区模式,通过分区可以将同一特征的数据发送到同一个数据流。这里的分区只是概念上类似于数据库的分区。
Kettle并没有针对数据库分区有什么功能。
ETL工具的功能之四:设计灵活性
一个ETL工具应该留给开发人员足够的自由度来使用,而不能通过一种固定的方式来限制用户的创造力和设计的需求。ETL工具可以分为基于过程的和基于映射的。
基于映射的功能只在源数据和目的数据之间提供了一组固定的步骤,严重限制了设计工作的自由度。基于映射的工具一般易于使用,可快速上手,但是对于更复杂的任务,基于过程的工具才是组好的选择。
使用Kettle这样基于过程的工具,根据实际的数据和也许需求,可以创建自定义的步骤和转换。
ETL工具的功能之五:复用性
设计完的ETL转换应该可以被复用,这是非常重要的。复制和粘贴已经存在的转换步骤是最常见的一种复用,但这不是真正意义上的复用。
Kettle里有一个映射(子转换)步骤,可以完成转换的复用,该步骤可以将一个转换作为其他转换的子转换。另外转换还可以在多个作业里多次使用,同样作业也可以为其他作业的子作业。
ETL工具的功能之六:扩展性
大家都知道,几乎所有的ETL工具都提供了脚本,以编程的方式来解决工具本身不能解决的问题。另外,还有少数几款ETL工具可以通过API或其他方式为工具增加组件。使用脚本语言写函数,函数可以被其他转换或脚本调用。
Kettle提供了上述的所有功能。Java脚本步骤可以用来开发Java脚本,把这个脚本保存为一个转换,再通过映射(子转换)步骤,又可以变为一个标准的可以复用的函数。实际上,并不限于脚本,每个转换都可以通过这种映射(子转换)方式来复用,如同创建了一个组件。Kettle在设计上就是可扩展的,它提供了一个插件平台。这种插件架构允许第三方为Kettle平台开发插件。
Kettle里的所有插件,即使是默认提供的组件,实际上也都是插件。内置的第三方插件和Pentaho插件的唯一区别就是技术支持。假设你买了一个第三方插件(例如一个SugarCRM的连接),技术支持由第三方提供,而不是由Pentaho提供。
ETL工具的功能之七:数据转换
ETL项目很大一部分工作都是在做数据转换。在输入和输出之间,数据要经过校验、连接、分隔、合并、转置、排序、合并、克隆、排重、过滤、删除、替换或者其他操作。
在不同机构、项目和解决方案里,数据转换的需求都大不相同,所以很难说清一个ETL工具最少应该提供哪些转换功能。但是呢,常用的ETL工具(包括Kettle)都提供了下面一些最基本的整合功能:
- 缓慢变更维度
- 查询值
- 行列转换
- 条件分隔
- 排序、合并、连接
- 聚集
ETL工具的功能之八:测试和调试
测试通常分为黑盒测试(也叫功能测试)和白盒测试(结构测试)。
黑盒测试,ETL转换就被认为是一个黑盒子,测试者并不了解黑盒子的功能,只知道输入和期望的输出。
白盒测试,要求测试者知道转换内部的工作机制并依此设计测试用例来检查特定的转换是否有特定的结果。
调试实际是白盒测试中的一部分,通过高度可以让开发者或测试者一步一步地运行一个转换,并找出问题的所在。
ETL工具的功能之九:血统分析和影响分析
任何ETL工具都应该有一个重要的功能:读取转换的元数据,它是提取由不同转换构成的数据流的信息。
血统分析和影响分析是基于元数据的两个相关的特性。
血统是一种回溯性的机制,它可以查看到数据的来源。
影响分析是基于元数据的另一种分析方法,可以分析源数据对随后的转换以及目标表的影响。
ETL工具的功能之十:日志和审计
数据仓库的目的就是要提供一个准确的信息源,因此数据仓库里的数据应该是可靠的、可信任的。为了保证这阵可靠性,同时保证可以记录下所有的数据转换操作,ETL工具应该提供日志和审计功能。
日志可以记录下在转换过程中执行了哪些步骤,包括每个步骤开始和结束时间戳。
审计可以追踪到对数据做的所有操作,包括读行数、转换行数、写行数。
觉得有用的朋友多帮忙转发哦!后面会分享更多devops和DBA方面的内容,感兴趣的朋友可以关注下~
相关推荐
- Java面试宝典之问答系列(java面试回答)
-
以下内容,由兆隆IT云学院就业部根据多年成功就业服务经验提供:1.写出从数据库表Custom中查询No、Name、Num1、Num2并将Name以姓名显示、计算出的和以总和显示的SQL。SELECT...
- ADG (Active Data Guard) 数据容灾架构下,如何配置 Druid 连接池?
-
如上图的数据容灾架构下,上层应用如果使用Druid连接池,应该如何配置,才能在数据库集群节点切换甚至主备数据中心站点切换的情况下,上层应用不需要变动(无需修改配置也无需重启);即数据库节点宕机/...
- SpringBoot多数据源dynamic-datasource快速入门
-
一、简介dynamic-datasourc是一个基于SpringBoot的快速集成多数据源的启动器,其主要特性如下:支持数据源分组,适用于多种场景纯粹多库读写分离一主多从混合模式。支持...
- SpringBoot项目快速开发框架JeecgBoot——项目简介及系统架构!
-
项目简介及系统架构JeecgBoot是一款基于SpringBoot的开发平台,它采用前后端分离架构,集成的框架有SpringBoot2.x、SpringCloud、AntDesignof...
- 常见文件系统格式有哪些(文件系统类型有哪几种)
-
PART.01常见文件系统格式有哪些常见的文件系统格式有很多,通常根据使用场景(Windows、Linux、macOS、移动设备、U盘、硬盘等)有所不同。以下是一些主流和常见的文件系统格式及其特点:一...
- Oracle MySQL Operator部署集群(oracle mysql group by)
-
以下是使用OracleMySQLOperator部署MySQL集群的完整流程及关键注意事项:一、部署前准备安装MySQLOperator通过Helm安装Operator到Ku...
- LibreOffice加入"转向Linux"运动
-
LibreOffice项目正准备削减部分Windows支持,并鼓励用户切换到Linux系统。自Oracle放弃OpenOffice后,支持和指导LibreOffice开发的文档基金会对未来有着明确的观...
- Oracle Linux 10发布:UEK 8.1、后量子加密、增强开发工具等
-
IT之家6月28日消息,科技媒体linuxiac昨日(6月27日)发布博文,报道称OracleLinux10正式发布,完全二进制兼容(binarycompatibility...
- 【mykit-data】 数据库同步工具(数据库同步工具 开源)
-
项目介绍支持插件化、可视化的数据异构中间件,支持的数据异构方式如下MySQL<——>MySQL(增量、全量)MySQL<——>Oracle(增量、全量)Oracle...
- oracle关于xml的解析(oracle读取xml节点的属性值)
-
有时需要在存储过程中处理xml,oracle提供了相应的函数来进行处理,xmltype以及相关的函数。废话少说,上代码:selectxmltype(SIConfirmOutput).extract...
- 如何利用DBSync实现数据库同步(通过dblink同步数据库)
-
DBSync是一款通用型的数据库同步软件,能侦测数据表之间的差异,能实时同步差异数据,从而使双方始终保持一致。支持各种数据库,支持异构同步、增量同步,且提供永久免费版。本文介绍其功能特点及大致用法,供...
- MYSQL存储引擎InnoDB(八十):InnoDB静态数据加密
-
InnoDB支持独立表空间、通用表空间、mysql系统表空间、重做日志和撤消日志的静态数据加密。从MySQL8.0.16开始,还支持为模式和通用表空间设置加密默认值,这允许DBA控制在这些模...
- JDK高版本特性总结与ZGC实践(jdk高版本兼容低版本吗)
-
美团信息安全技术团队核心服务升级JDK17后,性能与稳定性大幅提升,机器成本降低了10%。高版本JDK与ZGC技术令人惊艳,且JavaAISDK最低支持JDK17。本文总结了JDK17的主要...
- 4 种 MySQL 同步 ES 方案,yyds!(两个mysql数据库自动同步的方法)
-
本文会先讲述数据同步的4种方案,并给出常用数据迁移工具,干货满满!不BB,上文章目录:1.前言在实际项目开发中,我们经常将MySQL作为业务数据库,ES作为查询数据库,用来实现读写分离,...
- 计算机Java培训课程包含哪些内容?其实就这六大块
-
不知不觉秋天已至,如果你还处于就业迷茫期,不如来学习Java。对于非科班小白来说,Java培训会更适合你。提前了解下计算机Java培训课程内容,会有助于你后续学习。下面,我就从六个部分为大家详细介绍...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- Java面试宝典之问答系列(java面试回答)
- ADG (Active Data Guard) 数据容灾架构下,如何配置 Druid 连接池?
- SpringBoot多数据源dynamic-datasource快速入门
- SpringBoot项目快速开发框架JeecgBoot——项目简介及系统架构!
- 常见文件系统格式有哪些(文件系统类型有哪几种)
- Oracle MySQL Operator部署集群(oracle mysql group by)
- LibreOffice加入"转向Linux"运动
- Oracle Linux 10发布:UEK 8.1、后量子加密、增强开发工具等
- 【mykit-data】 数据库同步工具(数据库同步工具 开源)
- oracle关于xml的解析(oracle读取xml节点的属性值)
- 标签列表
-
- oracle位图索引 (74)
- oracle批量插入数据 (65)
- oracle事务隔离级别 (59)
- oracle 空为0 (51)
- oracle主从同步 (55)
- oracle 乐观锁 (51)
- redis 命令 (78)
- php redis (88)
- redis 存储 (66)
- redis 锁 (69)
- 启动 redis (66)
- redis 时间 (56)
- redis 删除 (67)
- redis内存 (57)
- redis并发 (52)
- redis 主从 (69)
- redis 订阅 (51)
- redis 登录 (54)
- redis 面试 (58)
- 阿里 redis (59)
- redis 搭建 (53)
- redis的缓存 (55)
- lua redis (58)
- redis 连接池 (61)
- redis 限流 (51)