ETL工作流活动优先级的确定及并行实现

发布时间:2021-06-05

工作流技术介绍

第27卷第2期2010年2月 

计算机应用研究

ApplicationResearchofComputers

Vol.27No.2Feb.2010

ETL工作流活动优先级的确定及并行实现

黄觉明,奚建清

(华南理工大学计算机科学与工程学院,广州510006)

摘 要:ETL流程是一个以数据为中心的工作流,对ETL工作流的执行过程进行论述,提出了一个算法,计算ETL工作流中各个活动的执行优先级,在工作流执行中为优先级相同且相互之间没有依赖关系的活动集创建多比较,在数据量足够大的情况下,加速比可接近理想值,加速比随着数据量增大而提高。关键词:数据仓库;抽取、转换和加载工作流;执行优先级;并行执行

中图分类号:TP311   文献标志码:A   文章编号:1001唱3695(2010)02唱0548唱04doi:10.3969/j.issn.1001唱3695.2010.02.040

个线程,通过并行执行这些活动,提高了ETL工作流的执行效率。实验结果表明,所提出的并行算法与串行算法

DeterminepriorityofETLworkflowactivitiesandtheirparallelexecution

(CollegeofComputerScience&Engineering,SouthChinaUniversityofTechnology,Guangzhou510006,China)

HUANGJue唱ming,XIJian唱qing

Abstract:TheprocessofETLcouldbetreatedasadata唱centricworkflow.ThispaperdiscussedtheexecutionoftheETLworkflowandproposedanalgorithmtodeterminethepriorityoftheactivitiesintheETLworkflow,threadswerecreatedfortheactivitiesthatsharethesamepriorityandwerenotdependentoneachother.Theactivitieswereputintheparallelexecutionenvironment,whichcouldimprovetheexecutionefficiencyoftheETLworkflow.Theresultoftheexperimentshowsthattheaccelerationratiooftheparallelalgorithmandtheserialalgorithmcouldbeapproachingtheidealvalue,aslongasthedatare唱cordsinvolvingislargeenough.Theaccelerationratiorisesasthenumberoftheinvolveddatarecordsincreases.

Keywords:datawarehouse;ETL(extraction,transformation,loading)workflow;executionpriority;parallelexecution

0 引言

建立数据仓库的操作过程通常可以看做是一个工作流,这个工作流以数据为中心,包括了数据抽取、数据转换、清洗以及数据加载。ETL工具即是负责处理这一类流程的数据集成工具。其主要功能特性包括:a)找出数据源的相关元数据,包括数据表的模式、文件的结构等;b)依据a)中的元数据从数据源中抽取原始数据;c)将被抽取出来的异构数据进行转换,以形成统一格式的数据集;d)根据用户的业务规则,将上一阶段的数据集进行清洗;e)将统一的、清洁的数据加载到目标数据仓库中。ETL工具中包含有若干种组件,这些组件可以完成ETL流程中的某个功能特性,可以根据业务需求将这些组件进行组装,形成一个工作流。

数据仓库项目建设的成功与否起着至关重要的作用。根据文献[1]显示,在数据仓库的建设过程中,用于ETL工具购买或者开发的费用以及ETL流程的设计与维护的开销往往占整个项目总开销的30%以上,有一些甚至占60%。

据仓库环境进行形式化建模。ETL工作流模型包括ETL概念

ETL工作流的设计质量往往取决于能否对业务需求和数ETL工作流设计的合理性以及流程的运行效率对于一个

型中的基本元素,并提供了概念模型中常见的转换。文献[3]中阐述了建立一个ETL概念模型的方法以及步骤。文献[4]提出在ETL概念建模的过程中使用UML方法。文献[5]定义了ETL逻辑模型的基本元素,并介绍了使用形式化的方法建立一个ETL逻辑模型的过程;文献[6]提出将一个ETL流程建模为一个有向图,使用图论中的研究成果来研究ETL工作流;文献[7]介绍了一种将ETL概念模型转换为ETL逻辑模型的方法,这是一个半自动的过程,可以提高ETL流程的设计质量。

以上的文献大多是提出建立ETL工作流模型的方法,而对于工作流的执行却都没有涉及,现有的ETL工具一般采用串行执行ETL工作流中的每一个活动的方法。本文首先简单介绍了ETL概念模型与逻辑模型,接着提出一种算法,对ETL工作流进行分析,计算确定工作流中每个活动的执行优先级,并通过创建多个线程,并行执行相互之间没有依赖关系的活动,有效提高了ETL工作流的执行效率。

本文介绍了ETL概念模型和ETL逻辑模型,并说明如何对ETL流程建模的方法,然后提出了一个算法,用于确定ETL工作流中各个活动的执行优先级,并通过为相互之间没有依赖关系的活动创建多个线程,并行执行这些活动,提高了整个ETL工作流的执行效率,实验分别使用了串行方法与并行方法

模型和ETL逻辑模型两部分。文献[2]中定义了ETL概念模

  收稿日期:2009唱06唱18;修回日期:2009唱08唱05  基金项目:数据仓库关键技术研究及其实现(2006Z3唱D3081);国际仓储物流信息交换服务平台技术研究(0711420500008);广东省基础软件与应用构建技术实验室(2006B80407001)

  作者简介:黄觉明(1983唱),男,广东汕头人,硕士研究生,主要研究方向为数据库与数据集成(csjmhuang@qq.com);奚建清(1962唱),男,教授,博导,博士,主要研究方向为数据库与网络计算.

ETL工作流活动优先级的确定及并行实现.doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219