基于客户真实市场需求的预测模型的研究与实现
发布时间:2024-11-08
发布时间:2024-11-08
预测模型
北京工业大学
硕士学位论文
基于客户真实市场需求的预测模型的研究与实现
姓名:刘苏
申请学位级别:硕士
专业:软件工程
指导教师:朱青;黄雷
20090501
预测模型
确喽
摘要
白2002年JI:展信息化二lj作以米,椭州汁i灿1学公司秋祟了大量的数据信息。
在国家局提出“按订单组彩:货源”的背景卜.,如何充分利用这些数据资源,做好巾.场卷烟需求预测I:作已成为娴9:t二j二j出信息化建设的雨耍课题。
本论文从烟草{i,lk“按LJ.单组织货源”实际需要m发,首先利用兀数掂技术以及数据挖掘技术对客户需求数捌进行预处理来逼近客户真实市场需求;然后分析了目自,J.烟草行业流行的预测方法,采川渐进验证法、均方误筹分析法、图表分析法对常用的预测模J弘进jJ:分析和比较。存此堆础卜,为了能综介利用预测过程中产:尘的中|’日J数抛和各种预测模型颅测的结果,提出并实现了适合娴草行业的迭代组合预测模,弘。该模,魁具何以卜.特点:
l、满足“三维三层”颅测体系的需要
2、存|I=d‘层嘶进行组合,fl:/1i州』2:lfiif,J进行迭代
3、通过利用组件技术建讧动念模蜓阼使其具备动念IIJ。扩展的能力
经过验证我们认为该迭代组合预测模型的预测精度高于尊一传统预测模型。
在样本窄I、日J放大的过程进iJ二二t个脎嘶的迭f℃ttt介预测,其迭代过程中Jk,.t-fi',j中间数据彳导剑了综合利川,x.t.tlJl=m:I{j:f,lk食qkI,I勺绛。盼f^动有现实的排t'弛i予作用。
由于烟‘学:i寰.-j,_lk氽业及其数捞:j-t有Ⅲ家局统。的规范和标准,本义所论述的预测模型将对烟草行、Ik的预测工作具自‘良好的促进作用。关键词预测模型;数捌挖j;Ifi:兀数据::t维-:bD;迭代组合颅测
预测模型
:J:iI‘、II,J、。’≯1。W坝卜’≯f?,沦殳
Abstract
FuzhouTobaccoCompanyhasaccumulated
informationsince
backgroundtheinformationworkcarriedalargeamountofdataoutin2002.IntheofNational
toBureau’Sputtinguseforwardthe‘source—orderandrealizeorganizations’,howmakefullofthesedata
anresourcesmarketcigarettedemandforecasthasbecome
informationoftobaccoindustry.importanttopicforthe
Inordertosatisfytheactuallyneedsof‘source—orderorganizations’oftobaccoindustry,thispaperhavedonesomeresearch.Firstot’all,usingmeta—datatechnologyand
todataminingtechnology,wepre—processcustomerdemandingdata
analyzedthecurrentapproachtherealmarket’Sdemand;andthenofthetobaccoindustryforecasting
squareerrorprevalencemethods.Usingincrementalverificationmethod,mean
modelcananalysisandchartanalysis,thepredictionbeanalysedand
compared.Onthisbasis,inordertopredictthe
intermediatedataandproduce
results,thecombinationacourseofutilizationofthetovarietyofforecastmodelspredicttheforecastingmodeliterationhasbeenproposedandimplementedforthetobaccoindustry.Themodelhasthefollowingcharacteristics:
1.Satisfiedwiththeneedsof‘three—dimensionalthree—tie’.
2.Combineinthesamelevels.iterativeindifferent
tocreateones.3.Byusingcomponenttechnology
beextendedwithdynamiccapabilities.dynamicmodel,itcan
Weverifiedthattheiterativecombinationforecastingmodelpredictionaccuracyishigherthanthetraditionalsinglepredictionmodel.
Intheprocessofenlarging
lIthesamplespace,theiterative
预测模型
^bstract
combinationofthreelevelshasbeenpredicted,theiterativeprocess
oftheintermediatedatagenerated
anbytheutilizationhavebeencomprehensiVelyutilized,andplayimportantandrealisticrolein
guidingtobaccobusinessenterprises’businessactivities.
Astobaccoenterprises’dataNationalBoardunified
aarenormsandstandards,thepredictionmodelinthispaperwillplay
thetobaccoindustry.goodreferenceto
Keywordspredictionmodel;datamining:metadata:Three—dimensionalandthree—tier;iterativecombinationprediction
预测模型
独创性声明
本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
硼 S
关于论文使用授权的说明
本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。
签名:拉导师签名:叁盔脚冱凿
预测模型
旃1”111.销沦
第1章绪论
1.1选题背景及意义
“按客户订巾组织货源”对蜥l荦:行、Ik工商个业水谢f:都足+场革命,是炯荦:行业的一项战略性系统一J:程。对烟草jJ:、Ik来讲,按客户订单组织货源是要通过按客户订单组织货源来彻底改变传统计划为中心的运行模式,真证实现以订单为中心和以市场为导向的运行模式。皋于客户真实市场需求的预测模型的研究与实现是这项系统工程工作的重中之晕。
2007年以来,按照幽家局、祢;建省硒统一一部署稿州市烟草公司全而启动了按客户订币组织货源‘I二作,不断完善预测制度,提高预测水平,推动按客J1订单组织货源工作向纵深发展。福州则草建立以^Ⅲ坪部、订单部、渠道部二个维度和零售户、客户经理、客户中心卡任三个层嘶的“三维二层”预测体系。
本论文主要的j_r:作内容仃:a:适合福州抛J草市公司“三维三层”预测体系的罐础上,对多种预测算法进行深入研究和分析;引入/C数据技术、数抛挖掘技术对失真的需求数据进行颅处理,利用组件技术建立叮扩展的预测模型库,实现预测模型的可配置,并应用剑基于J2EE架构的市场需水预测支持系统中;采用差异牢分析法、误差分析法、r}j场验证法、渐进比较法测试各种预测模理的自’效性和适用性。
目前,国内烟草行业商业企业都任着力研究“按订单组织货源”工作,但研究的]:作重点都放在需求预测的流程舰范和业务关系上,定黾预测方法少,定性予贝测方法多。在市场需求预测这个课题I:幽内夕lqi)t:究的文薛都已经很多,ffI.凶为卷烟市场需求颅测』七自‘多凶素、动态和并发臀特点,尢法套用现有的腥论模型。一般行jIk的市场需求预测多是建。莎静念的预测模型,建立动念的、可配茜的预测模型的研究相对较少。
我困烟草行业讵处于一种计划经济和flj场经济并存的局面,零售户的需求顶测是一个市场行为,而货源的组织和供给左fj又带仃汁划经济的仉彩,建立动态可配置的预测模型适应对不n4需求颅测的需要,具有‘定的创新意义。
预测模型
,{I:‘i1。,11,J、’’;’+1。fr}1f叫f。“j-’*fj.C仑之
曼曼曼!!皇毫曼曼曼!!!皇曼曼!!!曼曼鼍!!鼍苎曼曼I一.I!!!曼!曼皇曼曼!!!!曼!曼!!!!!!!!曼!!!!曼蔓曼!曼曼曼苎曼!!!曼1.2国内外研究现状
目自,J.烟草行业预测活动的预测模型种类繁多,往往从小川层而、不同周期、
不同预测对象进行预测,得Hjff勺颅测数掳{尤法‘茕复利用,准确。陀/1i高,中11jJ过程数掘无法得到允分利用。而困外的理论研究、算_法研究虽然比较全面,但却无法直接拿来用于卷娴需求的预测。
1.2.1预测的研究现状分析
困外研究者更注重预测方法的理论研究,西方统计学家认为:影响经济现象
变动的原因幸要有IJq种,即:反映人l-1、资本、技术等变化的长期趋势:反映气候、习俗等变化的季1丫变动;反映整个丰l:会经济周期兴衰的循环变动;反映偶然性变化的/1i舰则变动。这种划分,最t一足m荚困哈佛人学的经济统计学家系统提出的,以后为统计学界所惯用。下面就从这|J【{个方面出发,来刚述其发展史及其现状¨1。
~般认为影u向动念数列发展变化的斟素何口目,ⅡlJ:长期趋势(这是最主要
的),用T表示;季节变动,用S表示,循环变动,用C表示;彳i舰则变动,』H]I表示。凶此,动念数列的模型有四种模式:
一、长期趋势研究的发展和现状
在统计发展史上,较早研究测定长期趋势问题的是萸幽统汁学家波凶廷,他
在1884年就已丌始研究。到1902年,天}习统汁学家诺顿各其所著《纠i约会融市场的统汁研究》tfl,把他所研究的资料配合成卜七种函数f{|}线水撕爷其K期趋势。当然,jF如卜费暄所说,仝少存~:一卜Ⅱ』:纪二l。年代以fmKj{fj趋势分析的一些具体问题多半没有解决。下面从预测方法入手术进一步领略长期趋势的发展、演变过程和现状。
l、移动平均法
此法是在1884年山英幽波斟廷教授提…来的。他在《宁家统计学会杂志》
上发表的“麦价变动和英同棉纱输人价变动的比较”r|l,以每七年的移动平均数,进行曲线修匀,从而获得长期趋势线。1924年,英㈧统计学家鲍莱肯定了这’方法,他认为!刍时|1IJ序列勺i份}艮长,m决定数列的l:要原斟义媵有5五著变化的时.’.
预测模型
筇1章绪论
候,用移动平均法来测定长期趋势线较其它方法更加灵敏。四十年代,丁尼尔进一步发展了移动平均法,增强了其适用性。
2、最小二乘法
此方法的系统提出者是德国的高斯,他是从观察星球运动误差的角度创用这一方法的,后来却被用以计算时间序列变动的长期趋势值。1925年,美国国家经济调查局的研究员克勒姆在《美国统计协会杂志》上发表文章,提出了“最小二乘法是鉴定趋势线的标准”,从而确立了最小二乘法在测定长期趋势中的地位。
3、曲线配合法
其一是冈珀茨长期时势曲线。该曲线是在计算保险率时发现的,最早是由英国保险学家冈珀茨于1820年在其《略论估计寿命的分析方法》一书中提出的。这种曲线起初增长很慢,其后逐渐加快,至某一点后,其增长速度又趋缓慢。人口增长的趋势,也有类似的情况;其二是罗吉斯长期趋势曲线。该曲线原由比利时数学家、凯特勒的弟子威豪尔斯特于1838年提出,用以测算人口的增长趋势,当时被称为“天算曲线”。1920年,美国生物学家、人口统计学家珀尔教授在数学家利德的帮助下,在研究关在封闭器皿中的苍蝇的繁殖数量增长情况时,也独立地发现了威尔斯特的罗吉斯曲线。因此,美国学者又常把这条曲线称为“珀一利曲线”。他们两人在1923年合著的《纽约及其近郊人口增长预测》一书中,就运用这条曲线来描述人口的增长趋势,很能说明问题。事实上,这两种曲线非常接近,均能代表按修正几何级数增长数列的趋势,可大量应用于时间序列的分析中。
二、季节变动研究的发展和现状
1854至1856年间,爱尔兰的学者吉尔伯特和英国经济学家、数学家巴贝奇分别在伦敦统计学会杂志上发表了论文“钞票的流通"和“票据交换”,对季节变动作了最初的研究。到了三十年代,测定季节变动的方法越来越多。根据统计学家威戈廷尼在其所著的《经济现象季节性变化的计算》中的统计,仅季节指数的测定方法就有27种之多。常用的测定季节变动的方法有:
1、平均法
美国统计学家戴维斯教授认为,凡年复一年无剧烈变动,凡成直线趋势的,.气.
预测模型
,II;求丁业人’’≯:一1.}!!坝I宁{、£论义
可用平均法测定季节变动。其方法是先求各月的平均数,然后用各月的长期趋势值除之,即得季节变动指数。而珀森斯教授是在没有计算出时间序列的长期趋势值以前就计量这个数列的季节变动。1923年3月,美国国家经济调查局的克勒姆教授提出使用中位数来确定季节变动,并对珀森斯的方法提出了技术上的改进意见。
2、环比法
在计算季节变动指数的各种方法中,使用比较广泛的是哈佛大学教授珀森斯所创造的环比法,他最初是在1919年1月提出此方法的。到1923年6月,珀森斯在《美国统计协会杂志》上发表的“时间序列相关”,以及在1924年刊登在《数学杂志手册》等上的有关文章中,对环比法又作了阐述。
3、配线比例法
这是美国福克奈博士和哈尔博士两人为了弥补哈特“按月平均数法”的缺陷而提出来的。他们所提出来的配线比例法由于计算比较简易,所以在当时流行较广。但到四十和五十年代虽然渐渐被“趋势循环比例法”夺走部分市场,但仍适用于当季节变动与循环变动相比、季节变动显得重要的场合。
三、循环变动研究的发展和现状
在循环变动中,周期长短的统计实证,常引起统计学家们的兴趣。在这方面的主要研究成果有法国学者尤格拉于1862年提出的“9~10年循环”学说,美国学者基钦于1923年提出的“40个月循环”学说,苏联学者康德拉捷也夫于1922年至1926年提出的“50~60年循环”学说,美籍俄国学者库兹涅茨于1930年提出的“20~25年循环”学说等。至于循环变动的测定,是在时间序列分析中比较困难的工作。其中有三种常用的和重要的统计方法:
1、残余法
这是美国珀森斯在1919年美国《经济统计评论》中发表的“商情指数”中首次提出的。珀森斯认为时间序列变动是由长期趋势、季节变动、循环变动和随机变动四种因素造成的,只要消去长期趋势和季节变动,并作进一步平滑摒弃随机变动后,所得残余部分就能呈现出循环变动。
预测模型
讥I于绢论
2、直接法
即1926年美国宾夕法尼亚人学的勃鲁鲍博:L所提出的“测定经济资料循环变动的直线法”。他在自己的博士论文巾介绍了陔法的计算步骤:首先,把资料的各个项目用6订一年的同月或l司季的同一项目柬除,以便将资料化为相对数,并消除季节变动与币常的“增加”:然后,校jF剩余趋势,以消除剩余趋势的成分。此法虽然计算简易,但不够精密。
3、循环平均法
这是由美国哥伦比亚大学教授、美国国家经济调裔局的两位新老局长f向恩斯和密契尔,在1946年合著的《商业循环的测量》‘∞叶1提出来的。他们提出这种方法是基于卜.列观点:一定数列的不同循环,侄模挺L能允分千臼似,因而可予平均,测出其半均动态。因此,这平叶,循环半均法的运用,具有一定的假定性与局限性。
四、随机变动研究的发展和现状
测算时11JJ序列巾的随机变动足个难题。[大IJIL,存统计发展史卜不仅在处理时问序列中的随机变动方面,统汁学家的成就不多,即使是在长期趋势、季节变动与循环变动等时|’uJ序列的统计研究qJ,还没解决的f’uJ题也为数不少。这将有待于后人的不断努力来加以完善、发展。
1.2.2相关领域的研究进展及成果
I玉l内烟草iJ二业卷烟需求坝测自‘二冲|I-h流的预测力‘法:
一、以客户经理为主的预测方法
这是目自,J.应用最为广泛的预测办法。它’:要依靠客户经理刈‘零售户当年逐月的需求置、实际购进量和历史购进超进jJ:分析、预测,IH场经理flf将各客户经理的预测结果汇总起来,从而达剑预测下月销售肇的目的。这类预测方法其实足销售人员意见汇总法的一种,本质卜属于定性预测方法。因此,用它对需求量进行定罩预测,显然有点先大小足、力不从心。乡j外,这类预测方法的准确程度士要取决于预测人员经验的丰寓程度和判断能力的商低,W『巾容易受}规因素的影日向。
预测模型
北糸1‘、1l,人1。;’IW坝I.’川_沦艾
二、单个数学模,理的预测方法
它通常足基于历史销鬣数掘,构造需求量与其十|1火幽素之问的函数关系,然后再通过该函数计算预测j!Jlft',j需求最。这类办法是定量预测的方法之~,较客户经理定性的预测方法相比较,在原理‘j算法卜更具客观性。
三、信息点预测方法。
是一种在伞区选取‘定比例的零售客户作为“终斯’-IflⅡ11.。tj,崩、采集点”来进行预测的一种方法。
综合考虑这螋预测方法辛要存在以卜.几方面I’uJ题:
1、缺乏对多种预测算法进行深入研究和分析;
2、预测模犁缺乏乡;之活,陀,小能适J越埘fji场4i川客J1分类的要求,在心用的过程中往往是采用同‘个预测模,弘;
3、预测结果缺乏验证机制,对预测结果的调整停留在依靠预测人员的经验和主观意志,科学性不强;
4、4i饱和的11,场投放带水失真数据处理问题。
综合来看,现阶段行业常用的市场需求预测方法,旱现出主观预测方法较多、客观预测方法较少:定性预测方法较多、定量预测方法较少;简单预测方法较多、复合预测方法较少:短划预测方法较多、长期颅测疗法较少等弊端。冈此,需要找到一种既能克服j-二述弊端,又能准确-ffij!J10的力‘法来取代这些传统的预测方法。1.3本文的主要工作
1.3.1研究内容
本论文的研究jT:作是征福州则草“按订单组钐:货源”项H背景下完成的。所研究的内容是符合烟草商、Ik企、I止“二:维一i层”颅测I:作需耍的迭代组合预测模型的研究和实现。山于卷炽I货源供应的特殊性,工、Ik的按计划投放,和商业的按市场销售这两者之问臣人差别,零售户的需求数掘存在严重的失真,如何进行数据处理逼近市场真实需求?如fIlJ针刈。不川的颅测刈’象、颅测捌j{『j、预测1i体选择/fi同的预测模型?如fII『综合利川符个颅测力‘法n/_’∽:.,。li、何次颅洲的11I叫数勃C、中I.}IJ.6.
预测模型
讹I帝编沦
II
系数等数据?这些问题就是本课题所研究的主要内容。!』1纳起来,奉沦文完成了以下/『乙项:1:作:
一、预测模型的研究
1、客户提报需求真实性研究,需求数据预处理
2、预测算法的研究以及适合卷娴预测的算法改进
3、适合烟草行业“三维三层”预测体系的预测模型的建立和验证
二、预测方法分析比较
针对烟草行业卷烟需求预测工作的特殊性,从预测对象、预测剧期等不同角度,针对时洲序列预测方法、因果分析预测方法、9家颅测方法等建立单一的预测模型,并分别对不H的颅测对缘和周期进{J:预测分析和验证,进行均方误差对比分析。
三、建立迭代组合预测模型
在分析单一预测模型的基础卜,结合炯草i维三层颅测的特J_,通过几数据技术、数据挖捌技术进ij二数槲预处理,用乡llff:化技术建涉适合烬I草iJ二业的迭代组合预测模型。
文章提出的市场需求倾测支持系统就是要实现市场需求预测的目标,通过从数据库中调入客户销售数抛和需求数掘进行预处理后,选择不H的预测算法模型进行预测计算和误差结果比较,4i足简单的把均力‘误筹(MSI-)最小的预测模型作为该预测对象的最佳预测模慢,而是把各种预测值进行组合,并按不同层面进行迭代,实现“三二维-二层”整体预测。拟解决的火键问题如’F:
一、数据预处理逼近市场真实需求
l、利用元数据技术彤成灵活的数掘信息的臼定义配置,利用数据挖掘技术选择把卷煳需求数据以满足率为指标离散化,分段平均处理需求数据;
2、需求数据结合信息点的数捌采集,客户l到为婚丧嫁娶等特殊动态I划素影响卷烟需求建立绿色通道管理模型,处婵动念㈥鬃而引起的数据问题。3、市场行为受各种闪索影响和系统颅测需要-一个柑{对稳定的环境之fBJ的矛
预测模型
』I:j—T、№人。’≯l‘w顺I‘’≯f一论文
盾问题,我们选择样小客户进7J:饱和投放,以样本颅测祭体;
二、模型的选择问题
通过多种单一预测模型对不f司预测对象颅测数据的比较分析后,在对不同预测对象、预测周期、预测主体进行预测的时候选择合适的预测模型进行组合。
三、建立迭代的组合颅测模,望
利用组建技术,建力:组合预测模型,实现预测模型的动态叮扩展,以之适应预测方法.预测t体,预测对象不断变化。
1.3.2预期目标和研究方法
国内外都住研究市场预测的耻论方法方嘶做了很多:l:作,但都局限各自j州k的特钮F和市场环境。
本文的创新之处就在于力图从烟草行业的实际I叶{发,针对各种复杂因素,特别是失真的客,1需求数据,使用各种技术和方法逼近市场真实需求,通过建立动念r叮扩展的迭代组合预测模型。利川历史销售数据、客户经理在f}j^场』:采集的客户需求数据以及客,『、住电话订货过程中提搬的需求数扼对单~’的预测模型进行验证,通过误差比较进行最优颅测模型的选择,从Ctj减小单凭预测t体主观判断选择模型的非科学性,提高系统预洲的效率和准确性,进I而剥’决策名‘的决策起到更好的辅助作『{j。存比较和选择过程I_fI,把单‘预洲模坪!值进iJ:组【合,并在不刚层由i进行迭代,整体解决似l草行业“三维:二层”的预测需求。
用渐进验证法、小样本空I'日J饱和投放法、图表法不断的调整预测模理,利用元数据技术、组件技术建立组件模型席的J1:发方法满足我们建立动态可扩展的预测模型。
预测模型
第1带绪论
1.4本文的组织结构
本文分为五章。
第一章绪论,介绍了论文选题的背景及意义,国内外研究现状,说明了本论文的主要研究内容及研究方法。
第二章,利用元数据技术以及数据挖掘技术对客户需求数据进行预处理。利用元数据技术动态配置模型信息,实现数据抽取、转换、元数据预定义查询等功能;利用数据挖掘技术来发现不同卷烟品牌、零售户的市场真实需求,以及影响卷烟需求的社会政治经济环境、季节风俗等动态因素的分析。
第三章,介绍了烟草行业内常用的一些预测方法,包括“信息点”预测方法、“协议订单”预测方法以及以各种单一预测模型进行预测的方法。在对常用的预测方法,包括组合预测模型进行分析比较后,认为这些预测方法都无法适应“三维三层”整体预测的需要。
第四章,本章提出了适合烟草行业“三维三层”预测体系的迭代组合预测模型,在介绍“三维三层”整个流程的基础上,提出了迭代组合预测模型的设计思路和实现方法。
第五章,本章详细介绍了迭代组合预测模型在卷烟需求预测工作中的应用方法、应用效果。分别对单一品牌预测、月总量预测进行了预测验证,把迭代组合预测模型的预测结果与单一预测模型的预测结果进行了比较并得出结论:迭代组合预测模型从整体上解决了烟草商业企业“三维三层”预测的需要,预测数据的精度得到了提高,三层迭代的模式,对烟草商业企业的经营活动有一定的指导作用。
预测模型
筇2带颅洲系矫r{】数州顶处J111fl'j杆1天手上术及jLJj¨i1
第2章预测系统中数据预处理的相关技术及其应用
卷烟作为一个特殊的商品,客,、提报的需求都有一定程度的欠真,冈此论文的首要工作就足对这螳失真的数掘进行颅处理,以逼近市场的真实需求。论文从烟草行业实际出发,采用了元数据技术和数抛挖掘技术米进预测源数据的预处理。
2-1元数据概述
元数据(MI"TA—DATA)最早来源f数据仓库领域,它足关于数掂的数据,对元数据应用的研究在国内外各行业已有广泛的皋础和范例,最早来自于数据仓库领域,描述了数据仓库的数据和环境,拙述了数抛仓库中各个对象,给出数据的解释、使J}3和分析。它是整个数捌仓库的核心,存数圳仓库砹计、运行、维护和使用中起极其重要作用。数据仓库中的元数据棚当数捌库巾数据字典,但其内容、功能、作用远远超出数据字典的范畴。
按功能区域划分,数拂:仓库的元数据可以划分为:数杌获取元数据、数据存储元数据、信息传递元数据。其t11,数据扶墩,,C数扔:定义数据抽墩、转换、清洗的规则,信息传递元数据预定义查询、报表数据浏览方式,数据存储元数据就是用于定义实体的元数据。
按用途/己数据划分,数引仓库的/己数据 叮以划分为:技术无数抓和商、lp元数据。其中,技术元数据一般住建‘霞、管朋数斟C仓库时使用,是刈’源数执t:及其内容、数据仓库卡题、数据转换规则等各种操作信息的描述,是为数铡仓库设计人员和管理员所使用的数据仓库数据信息,用于执行数据仓库丌发和管理任务。包括以下等信息:
l、数据源信息
2、转换捕述(从操作数拱C库刽数据仓席的映射方法,以及转换数据的算法)3、目杨:数抓的仓库对象和数抓结构定义
4、数据清洗和数据增力¨的舰¨10
5、数据映射操作
6、访问权限,备份历史,存档历史,信息传输历史,数据获耳义J力史,数据
访问等。
数据仓库的商、Jk元数据‘般行j使用数据仓库时使川,是用户理解和使用数据仓库的路线图或信息目录,它帮助川』、杏咖信息、理解结果。包括以下等信息:
.11.
预测模型
北求3-ql,,j‘’;::jW坝卜’?:{谚沦文
1、连接步骤
2、安令性和访问卡义限
3、数据转换的商业规则
4、汇总以及数掘由来
5、表名称和商业定义
6、属性名称和商业定义
7、查询报表I:具
8、预定义查询
9、预定义报表等。
随着元数据应用的H益J。泛,元数掂的定义和内涌在不同领域得以扩展和深化。美国联邦地理数据委员会(FGDC)干fl闶际标准化纠l织(ISO)地球信息委员会认为:元数据是火卡数据内容、质量、条件以及其他特征的数据。存:数字图书馆oj信息界,元数据被定义为:提供关于信息资源或数掘的~种结构化的数据,是埘信息资源的结构化的描述,具有定位、发现、证明、评估、选择等功能。农业科学、教育资源等其他领域中,关于/已数据的拙述和定义也4i尽梢同。
元数据在软件领域也越来越为J。泛被运用,存软件构造领域中有一种关于元数据的定义是:如果软件构架的使用能够用模式来定义,元数据就足用来描述那些模式的语言。罐于元数据技术驱动的软件程序,元数据可以被定义为在程序中小是被加L的刈‘象,而足通过其值的改变束改变稃序的{j二为的数据。它在运行过程中起着以解释方式控制程序行为的作J}I。存程序的彳:11-iJf移昔配胃/1i川值的元数据,就町以得到与原来等价的程序行为。
在软件丌发中,兀数据具有以下特点【21:
l、高度的抽象性
一方旺Ⅱ,元数据是对程序叶1起控制作用的数捌进iJ:抽象听得…、刈’程序共性行为进iJ:深入分析研究后J_生的,足程J—F行为的一k,Hiti象;另一方卣,它义是高于语言自身数掂类型和j{j户自定义数据类型的一种数据抽象;
2、卡目t)(寸稳定性
元数据既是行为fgj41tl象,也足数扔Ifn抽象。冈此一.}I.确定批述后,是不作修改的,它仪在系统扩充维护时口J.能发,ji修改。
3、与编译无关性
元数据往往以数据字典的力‘式静态存储,它仅征程序运行过程中起着以解释
方式控制程序行为的作用,借此来影响程序动态行为,与程序编译是无义的。
元数据驱动的理念是刷数拚:表示行为,把软件系统巾对行为的控制转化为对数据的控制。由。r数掘t叮控性比程序代码ljJ.控性j要高得多,所以在元数折:驱动模