ETL工作流活动优先级的确定及并行实现(4)

时间:2025-04-03

工作流技术介绍

实验的方法分别是将两个数据抽取操作并行执行(这两个抽取操作不存在依赖关系),以及将这两个数据抽取操作串行执行,即一个操作结束后才启动另一个操作(以下的分析中将这两种方法简称为并行方法与串行方法)。每一组实验数据都是三次实验数据取平均值的结果。

实验场景一 数据源S1位于SQLServer数据库中,数据源S2位于Oracle数据库中,工作数据库位于SQLServer数据库中。表1是实验数据。

表1 场景一实验数据

数据元组数10005000100002000050000100000

并行方法/ms

36777896123132194353765107365

串行方法/ms

5568134112222441833104771211786

加速比1.511.701.801.911.951.97

模型主要是建立数据源与数据仓库之间的映射关系,而ETL逻辑模型则主要是确定流程中各个活动的执行优先级及其语义。本文通过一个电子商务的例子阐述了建立ETL概念模型和逻辑模型的过程,提出了一个算法,分析ETL工作流并计算工作流中各个活动的执行优先级,将优先级相同并且相互之间没有依赖关系的活动放在同一个执行阶段,通过创建多个线程并行执行这些活动,提高了ETL工作流的执行效率。实验数据表明,该算法与现有的串行算法比较在时间效率方面具有较大优势,并且随着数据量增大,加速比提高,当参与计算的数据量比较大时,加速比可以趋近于理想值。数据仓库环境中的ETL工具经常需要处理海量数据,这个算法对于ETL工具性能的提高具有较强的实用性。参考文献:

[1]STRANGEK.ETLwasthekeytothisdatawarehouse’ssuccess,

TechnicalReportCS唱15唱3143[R].2002.

[2]VASSILIADISP,SIMITSISA,SKIADOPOULOSS.Conceptualmode唱

shoponDataWarehousingandOLAP.2002:14唱21.

lingforETLprocesses[C]//Procofthe5thACMInternationalWor唱SIMITSISA,VASSILIADISP.Amethodologyfortheconceptualneering.2003:305唱316

modelingofETLprocesses[C]//ProcoftheDecisionSystemsEngi唱

  实验场景二 数据源S1位于SQLServer数据库中,数据源S2位于MySQL数据库中,工作数据库位于SQLServer数据库中。表2是实验数据。

表2 场景二实验数据

数据元组数10005000100002000050000100000

并行方法/ms

38437802125632339655302112328

串行方法/ms

5416134531256342894103059209844

加速比1.411.721.831.831.861.87

[3]

[4]TRUJILLOJ,LUJAN唱MORAS.AUMLbasedapproachformodeling

ETLprocessesindatawarehouse[C]//ProcofLNCS,vol2813.2003:307唱320.

[5]VASSILIADISP,SIMITSISA,GEORGANTASP,etal.Ageneric

andcustomizableframeworkforthedesignofETLscenarios[J].In唱VASSILIADISP,SIMITSISA,SKIADOPOULOSS.ModelingETLDecisionandManagementofDataWarehouses.2002:52唱61.activitiesasgraphs[C]//Procofthe4thInternationalWorkshopon

  由上面的实验数据可以看出,本文所提出的算法可以有效提高ETL工作流的执行效率。本实验中,并行执行的活动数为2,理想情况下加速比为2,实验结果显示实际加速比在1.4~2.0,当数据量增大时,加速比也随着增大。这是因为当一个活动所处理的数据量比较小时,迁移数据本身所需要的时间也比较少,而创建线程需要一定的时间开销,此时占用的比例较大;而当处理的数据量比较大时,创建线程所需要的时间占总时间的比例下降,达到了比较好的加速比。ETL工具所处理的数据量通常情况下都比较大,本文所提出的这个算法所带来时间效率的提高是比较明显的,具有很强的实用性。

formationSupportSystems,2 …… 此处隐藏:1361字,全部文档内容请下载后查看。喜欢就下载吧 ……

ETL工作流活动优先级的确定及并行实现(4).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219