面向数据集成的ETL技术研究(4)
时间:2025-03-10
时间:2025-03-10
详细介绍了数据抽取的几种主要办法
TB_REMARK where ID gt; 100;
相比在ETL引擎中进行数据转换和加工,直接在SQL语句中进行转换和加工更加简单清晰,性能更高。对于SQL语句无法处理的可以交由ETL引擎处理。
2.3 数据装载
将转换和加工后的数据装载到目的库中通常是ETL过程的最后步骤。装载数据的最佳办法取决于所执行操作的类型以及需要装入多少数据。当目的库是关系数据库时,一般来说有两种装载办法:
(1)直接SQL语句进行insert、update、delete操作。
(2)采用批量装载办法,如bcp、bulk、关系数据库特有的批量装载工具或api。
大多数情况下会试用第一种办法,因为它们进行了日志记录并且是可还原的。但是,批量装载操作易于试用,并且在装入大量数据时效率较高。试用哪种数据装载办法取决于业务windows的需要。
3.主流ETL工具
ETL工具从厂商来看分为两种,一种是数据库厂商自带的ETL工具,如Oracle Database warehouse builder、Oracle Database Data Integrator。另外一种是第三方工具提供商,如Kettle。Oschina世界也有很多的ETL工具,性能各异,强弱不一。
(1)Oracle Database Data Integrator(ODI)
ODI前身是Sunopsis Active Integration Platform,在2006年底被Oracle Database购买,重新命名为Oracle Database Data Integrator,重要定位于在ETL和数据集成的场景里试用。ODI和Oracle Database原来的ETL工具OWB相比有一部分显著的特点,比如和OWB一样是ELT架构,但是比OWB支持更多的异构的数据源,ODI提供了call web service的机制,并且ODI的端口也可以暴露为web service,从而可以和SOA环境进行交互。ODI能够检测事件,一个事件可以触发ODI的一个端口流程,从而完成近乎实时的数据集成。
ODI的重要性能特点有:
a.试用CDC操作为变更数据捕获的捕获办法。
b.proxy server支持并行处理和负载均衡。
c.完善的权限控制、版本管理性能。