面向数据集成的ETL技术研究

时间:2025-03-09

详细介绍了数据抽取的几种主要办法

面向数据集成的ETL技术研究

时间:2009-12-18 13:52来源: 作者: 点击:

34次

数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享,是企业商务智能、数据仓库系统的重要组成部分。 随着单位information化建设的扩展,巨大的投入资金为单位建立了众多的informationwindows,以帮助单位进行内外部业务的处理和管理工作。但是随着informationwindows的增加,各自孤立工作的informationwindows将会造成大量的冗余数据和业务人员的重复劳动。单位应用集成(EAI Picture EXP操作系统lorer,Enterprise Application Integration)应运而生。EAI Picture EXP操作系统lorer通过建立底层数据交换平台来联系横贯整个单位的异构

windows、应用、数据源等,完成在单位内部的ERP、CRM、SCM、数据库、数据仓库,以及其它重要的内部windows之间无缝地共享和交换数据的需要。数据集成是单位应用集成的重要环节,单位实现数据集成,可以使更多的人更充分地试用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。

但是,在实施数据集成的过程中,由于不同客户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢掉information等棘手问题,严重阻碍了数据在各部门和各应用windows中的流动与共享。因此,如何对数据进行有效的集成管理已成了增强单位商业竞争力的必然选自。ETL是实现数据集成的重要技术。 ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。(1)数据抽取:从源数据源windows抽取目的数据源windows需要的数据;(2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工。(3)数据加载:将转换后的数据装载到目的数据源。

ETL原本是操作为构建数据仓库的一个环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文档等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成了联机分析处理、数据挖掘的入门。现在也越来越多地将ETL应用于一般informationwindows中数据的迁移、交换和同步。一个简单的ETL体系结构如图1.1所示。

2.ETL中的关键技术

ETL过程中的重要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些性能,各个ETL工具一般会进行一部分性能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计information等。

2.1 数据抽取

数据抽取是从数据源中抽取数据的过程。实际应用中,数据源较多采用的是

面向数据集成的ETL技术研究.doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219