大数据研究_未来科技及经济社会发_省略_领域_大数据的研究现状与科学思考_李
时间:2025-07-10
时间:2025-07-10
战略与决策研究
Strategy&PolicyDecisionResearch
大数据研究:未来科技
及经济社会发展的重大战略领域
——大数据的研究现状与科学思考
文/李国杰程学旗
中国科学院计算技术研究所北京100190
*
【摘要】近来,大数据引起了产业界、科技界和政府部门的高度关注。本文简要阐述了大数据的研究现状与重大意义,探讨了大数据的科学问题,介绍了大数据应用与研究所面临的问题与挑战。最后,对大数据发展战略提出了几点建议。【关键词】大数据,数据科学,数据工程,第四范式DOI10.3969/j.issn.1000-3045.2012.06.001
近年来,大数据引起了产业界、科技界和政府部门的高度关注。2012年3月22日,奥巴马宣布美国政府投资2亿美元启动“大数据研究和发展计划(BigDataRe-searchandDevelopmentInitiative)”。这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为,大数据是“未来的新石油”,并将对大数据的研究上升为国家意志,这对未来的科技与经济发展必将带来深远影响。
学等)的研究产生了越来越多的数据。例如,用电子显微镜重建大脑中的突触网络,1立方毫米大脑的图像数据就超过1PB。但近年来大数据的飙升主要还是来自日常生活,特别是互联网公司的服务。据著名咨询公司IDC的统计,2011年全球被创建和复制的数据总量为1.8ZB(10的21次方),其中75%来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料
[11]
的数据总量(200PB)。Google公司通过
1何谓大数据
人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据(BigData)时代[1,16]。以数据为中心的传统学科(如基因组学、蛋白组学,天体物理学和脑科
大规模集群和MapReduce软件,每月处理的数据量超过400PB;百度每天大约要处理几十PB数据;Facebook注册用户超过10亿,每月上传的照片超过10亿张,每天生成300TB以上的日志数据;淘宝网会员超过
3.7亿,在线商品超过8.8亿,每天交易数千万笔,产生约20TB数据。传感网和物联网的蓬勃发展是大数据的又一推动力,各个城
院刊
战略与决策研究
市的视频监控每时每刻都在采集巨量的流媒体数
Strategy&PolicyDecisionResearch
Facebook等跨国巨头是发展大数据处理技术的主要推动者。自2005年以来,IBM投资160亿美元进行了30次与大数据有关的收购,促使其业绩稳定高速增长。2012年,IBM股价突破200美元大关,3年之内股价翻了3倍。华尔街早就开始招聘
据。工业设备的监控也是大数据的重要来源。例如,劳斯莱斯公司对全世界数以万计的飞机引擎进行实时监控,每年传送PB数量级的数据。
一般意义上,大数据是指无法在可容忍的时
间内用传统IT技术和软硬件工具对其进行感知、精通数据分析的天文学家和理论数学家来设计金获取、管理、处理和服务的数据集合。大数据的特
点可以总结为4个V,即Volume(体量浩大)、Vari-ety(模态繁多)、Velocity(生成快速)和Value(价值巨大但密度很低)。首先,数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数。IDC的研究报告称,未来10年全球大数据将增加50倍,管理数据仓库的服务器数量将增加10倍[11]。其次,大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,至2012年末,非结构化数据占有比例将达到整个数据量的75%以上。同时,由于数据显性或隐性的网络化存在,使得数据之间的复杂关联无所不在。再次,大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才能有效利用这些数据。另外,数据自身的状态与价值也往往随时空变化而发生演变,数据的涌现特征明显。最后,虽然数据的价值巨大,但是基于传统思维与技术,人们在实际环境中往往面临信息泛滥而知识匮乏的窘态,大数据的价值利用密度低。
融产品。IBM现在是全球数学博士的最大雇主,数学家正在将其数据分析的才能应用于石油勘探、医疗健康等各个领域。eBay通过数据挖掘可精确计算出广告中的每一个关键字为公司带来的回报。通过对广告投放的优化,2007年以来eBay产品销售的广告费降低了99%,而顶级卖家占总销售额的百分比却上升至32%。目前推动大数据
研究的动力主要是企业经济效益,巨大的经济利益驱使大企业不断扩大数据处理规模[14,15,17]。
近几年,Nature和Science等国际顶级学术刊物相继出版专刊来专门探讨对大数据的研究[6-9]。
[6]2008年Nature出版专刊“BigData”,从互联网技
术、网络经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据带来的挑战。2011年Science推出关于数据处理的专刊“Dealingwithda
[7]ta”,讨论了数据洪流(DataDeluge)所带来的挑
战,特别指出,倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用。2012年4月欧洲信息学与数学研究协会会刊ERCIMNews出版专刊“Big
[9]Data”,讨论了大数据时代的数据管理、数据密集
< …… 此处隐藏:14298字,全部文档内容请下载后查看。喜欢就下载吧 ……