




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、淺談大數(shù)據(jù)的概念、技術與挑戰(zhàn) 王濤 (信管110502220) 摘要:計算、物聯(lián)網(wǎng)、社交網(wǎng)絡等新興服務促使人類社會的數(shù)據(jù)種類和規(guī)模正以前所未有的速度增長,大數(shù)據(jù)時代正式到來數(shù)據(jù)從簡單的處理對象開始轉變?yōu)橐环N基礎性資源,如何更好地管理和利用大數(shù)據(jù)就云計算技術對于大數(shù)據(jù)時代數(shù)據(jù)管理所產生的作用進行分析最后歸納總結大數(shù)據(jù)時代所面臨的新挑戰(zhàn)關鍵詞:大數(shù)據(jù);技術;挑戰(zhàn);數(shù)據(jù)分析;云計算Abstract: Data type and amount in human society is growing in amazing speed which is caused by emerging new ser
2、vices such as cloud computing,internet of things and social network,the era of big data has come Data has been fundamental resource from simple dealing object,and how to manage and utilize big data better has attracted much attention key words:big data;technology; Challenge;data analy
3、sis; cloud computing引言近年來,伴隨著物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)等新技術的迅猛發(fā)展,數(shù)據(jù)正以前所未有的速度不斷增長和積累,大數(shù)據(jù)時代已經(jīng)成為普遍關注的話題大數(shù)據(jù)的規(guī)模效應給數(shù)據(jù)存儲、管理以及數(shù)據(jù)分析帶來了極大的挑戰(zhàn),數(shù)據(jù)管理方式上的變革正在醞釀和發(fā)生對大數(shù)據(jù)的基本概念進行剖析,并對大數(shù)據(jù)的主要應用作簡單對比在此基礎上,闡述大數(shù)據(jù)處理的基本框架。這引起了產業(yè)界、學術界、科技界和政府機構的廣泛關注。大數(shù)據(jù)的火熱并不意味著對于大數(shù)據(jù)的了解深入,反而表明大數(shù)據(jù)存在過度炒作的危險大數(shù)據(jù)的基本概念、關鍵技術以及對其利用上均存在很多的疑問和爭議【1】。1、 大數(shù)據(jù)的基本概念及大
4、數(shù)據(jù)時代產生的必然早在1980年,美國著名未來學家阿爾溫托夫勒( AlvinToffler) 在 第三次浪潮 一書中就提出了 大數(shù)據(jù) ( BigData) 的概念,并將其贊頌為 第三次浪潮的華彩樂章2著名的數(shù)據(jù)庫專家 圖靈獎獲得者吉姆 格雷( JimGray) 認為傳統(tǒng)的實驗 理論和計算機3大范式在科學研究,特別是一些新的研究領域已經(jīng)無法很好地發(fā)揮作用,于是,其在2007年提出當前科學研究已發(fā)展到了 第4種范式( The FourthParadigm)3,即以大數(shù)據(jù)為代表的數(shù)據(jù)密集型科學近幾年,一些國際頂級學術刊物也相繼出版??瘜Υ髷?shù)據(jù)進行探討研究 2008 年9 月,Nature推出了 Bi
5、g Data ???,從互聯(lián)網(wǎng)技術環(huán)境科學 生物醫(yī)藥等多個方面介紹了海量數(shù)據(jù)帶來的挑戰(zhàn) 2011年2月,Science出版關于數(shù)據(jù)處理的???Dealing with data5,討論了數(shù)據(jù)洪流( Data Deluge) 所帶來的挑戰(zhàn),并闡明了大數(shù)據(jù)對于科學研究的重要性 2012年4月,歐洲信息學與數(shù)學研究協(xié)會會刊ERCIM News出版???Big Data6,討論了有關大數(shù)據(jù)時代的數(shù)據(jù)管理 數(shù)據(jù)密集型研究的創(chuàng)新技術等問題,并介紹了歐洲科研機構開展的研究活動和進展情況最早提出大數(shù)據(jù)時代已經(jīng)到來的是全球知名咨 詢 公 司 麥 肯 錫,其下屬機構全球研究所( Mckinsey Global I
6、nstitute) 于2011年6月份發(fā)布的一份專門的研究報告,將 大數(shù)據(jù) 視為全世界 下一個創(chuàng)新競爭和生產力提高的前沿領域7,并指出,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產因素; 而人們對于海量數(shù)據(jù)的運用將預示著新一波生產率增長和消費者盈余浪潮的到來 著名的市場調研機構IDC( International Data Corporation,國際數(shù)據(jù)公司) 在同年的報告中指出,全球數(shù)據(jù)總量在2011年已達到1.8ZB( 1ZB=240GB) ,而這個數(shù)據(jù)大約以每兩年翻一番的速度增長,預計至2020年全球擁有的數(shù)據(jù)量將達35ZB8。華爾街日報更是將大數(shù)據(jù)時代 智能化生產和無線
7、網(wǎng)絡革命稱為引領未來繁榮的三大技術變革 此外,Gartner、埃森哲、普華永道等咨詢公司,以及財富周刊 福布斯 紐約時報 等商業(yè)管理刊物也對大數(shù)據(jù)進行了大量的介紹與研究縱觀國際形勢,對大數(shù)據(jù)的研究與應用已引起各國政府部門的高度重視,成為重要的戰(zhàn)略布局方向 各國陸續(xù)出臺有關大數(shù)據(jù)的國家政策和戰(zhàn)略2012年3月,美國奧巴馬政府宣布將投資2億美元用于啟動 大數(shù)據(jù)研發(fā)倡議( Big Data Researchand Development Initiative)9,旨在提高從海量和復雜的數(shù)據(jù)中分析萃取信息的能力,這是繼1993年美國宣布 信息高速公路 計劃后的又一次重大科技發(fā)展部署 繼美國率先開啟大數(shù)
8、據(jù)國家戰(zhàn)略先河之后,其他各國也隨后跟進,已經(jīng)或者即將出臺相應的戰(zhàn)略舉措 日本政府重新啟動2011年日本大地震后一度擱置的政府ICT戰(zhàn)略研究,于2012年7月推出新的綜合戰(zhàn)略 活力ICT日本,重點關注大數(shù)據(jù)應用所需的云計算 傳感器社會化媒體等智能技術開發(fā)2013年1月,英國政府宣布將注資6億英鎊,發(fā)展大數(shù)據(jù) 合成生物等8類高新技術,其中信息行業(yè)新興的大數(shù)據(jù)技術將獲得1.89億英鎊,占據(jù)總投資的近三分之一 澳大利亞政府在同年3月表示,澳聯(lián)邦政府大數(shù)據(jù)戰(zhàn)略草案有望在5月份出臺,預計會在6 7月間正式頒布一些區(qū)域性或全球性組織也對大數(shù)據(jù)予以高度關注 在過去幾年,歐盟已對科學數(shù)據(jù)信息化基礎設施投資1億多
9、歐元,并將數(shù)據(jù)信息化基礎設施作為Horizon2020計劃的優(yōu)先領域之一62012年初,世界經(jīng)濟論壇一份題為 大數(shù)據(jù),大影響( BigData,BigImpact) 的報告宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產類別,就像貨幣或黃金一樣聯(lián)合國也推出了全球脈動( GlobalPulse)10倡議項目,希望利用大數(shù)據(jù)來促進全球經(jīng)濟發(fā)展。盡管各界 各地區(qū) 各機構對大數(shù)據(jù)廣泛關注,進行了大量研究,但目前對于大數(shù)據(jù)尚未形成公認的定義 信息管理專家涂子沛在大數(shù)據(jù): 正在到來的數(shù)據(jù)革命 中這樣定義大數(shù)據(jù):指那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,一般的軟件工具難以捕捉 存儲管理和分析的數(shù)據(jù),11一般以 太字節(jié)( TB
10、) 為單位 這一定義基本上簡單明了地闡述了大數(shù)據(jù)的內涵。數(shù)據(jù)是云計算技術的延伸,更是社會進步和發(fā)展的必然結果,大數(shù)據(jù)時代的到來引領了未來IT技術發(fā)展的戰(zhàn)略走向。在信息和網(wǎng)絡技術飛速發(fā)展的今天,越來越多的企業(yè)業(yè)務及社會活動實現(xiàn)了數(shù)字化,特別是隨著數(shù)據(jù)生成的自動化及數(shù)據(jù)生成速度的加快,數(shù)據(jù)量也隨之快速增長【12】。同時,隨著存儲設備、內存、處理器等電腦元件成本的穩(wěn)定下降,使得之前較昂貴的大規(guī)模數(shù)據(jù)存儲和處理變得十分經(jīng)濟【13】,也使得大數(shù)據(jù)的存在成為可能。傳感器數(shù)據(jù)也是大數(shù)據(jù)的主要來源之一。在物聯(lián)網(wǎng)時代,成萬上億計的網(wǎng)絡傳感器嵌入在數(shù)量不斷增長的智能電表、移動電話、汽車等物理設備中,不斷感知、生成
11、并傳輸超大規(guī)模的有關地理位置、振動、溫度、濕度等新型數(shù)據(jù)。此外,移動互聯(lián)網(wǎng)、三網(wǎng)融合、Web 2.0技術和電子商務技術的飛速發(fā)展,也促進了大數(shù)據(jù)時代的產生和發(fā)展??梢园l(fā)現(xiàn),數(shù)字化已經(jīng)成為社會發(fā)展的必然趨勢。與生產過程必須依賴硬件設備和人力資本一樣,企業(yè)的業(yè)務活動、創(chuàng)新、成長也越來越離不開大量數(shù)據(jù)的支持【14】。也就是說,企業(yè)的任何一項業(yè)務活動都與大量的數(shù)據(jù)緊密相聯(lián),而我們每一個人都是數(shù)據(jù)的產生者,數(shù)據(jù)量與日俱增,數(shù)據(jù)結構繁雜多變,數(shù)據(jù)產生速度非常之快,我們已經(jīng)進入了大數(shù)據(jù)的時代【15】。2、 大數(shù)據(jù)的特點及關鍵技術分析 1.大數(shù)據(jù)的特點大數(shù)據(jù)不是一種新技術,也不是一種新產品,而是一種新現(xiàn)象,是
12、近來研究的一個技術熱點 大數(shù)據(jù)具有以下4個特點,即4個V16:( 1) 數(shù)據(jù)體量( Volumes) 巨大大型數(shù)據(jù)集,從TB級別,躍升到PB級別;( 2) 數(shù)據(jù)類別( Variety) 繁多 數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式?jīng)_破了以前所限定的結構化數(shù)據(jù)范疇,囊括了半結構化和非結構化數(shù)據(jù);( 3) 價值( Value) 密度低 以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅一兩秒鐘;( 4) 處理速度( Velocity) 快 包含大量在線或實時數(shù)據(jù)分析處理的需求,1秒定律。隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,數(shù)據(jù)本身就是資產云計算為數(shù)據(jù)資產提供了保管訪問的場所和渠道,但如何盤活數(shù)據(jù)資產,使其為國
13、家治理企業(yè)決策乃至個人生活服務,是大數(shù)據(jù)的核心議題,也是云計算的靈魂和必然的升級方向。大數(shù)據(jù)已經(jīng)出現(xiàn) IDC多年的研究結果告訴我們: 全球數(shù)據(jù)量大約每兩年翻一番,每年產生的數(shù)據(jù)量按指數(shù)增長,數(shù)據(jù)增速基本符合摩爾定律 全球有46億移動電話用戶,有20億人訪問互聯(lián)網(wǎng),人們以比以往任何時候都高得多的熱情在與數(shù)據(jù)或信息交互 思科公司預計,到2013年,在互聯(lián)網(wǎng)上流動的數(shù)據(jù)量將達到每年667艾字節(jié)17。關鍵技術2.1云計算;大數(shù)據(jù)的基礎平臺與支撐技術如果將各種大數(shù)據(jù)的應用比作一輛輛“汽車”,支撐起這些“汽車”運行的“高速公路”就是云計算正是云計算技術在數(shù)據(jù)存儲、管理與分析等方面的支撐,才使得大數(shù)據(jù)有用武
14、之地文件系統(tǒng)是支撐上層應用的基礎。原始的數(shù)據(jù)存儲在文件系統(tǒng)之中,但是用戶習慣通過數(shù)據(jù)庫系統(tǒng)來存取文件因為這樣會屏蔽掉底層的細節(jié),且方便數(shù)據(jù)管理直接采用關系模型的分布式數(shù)據(jù)庫并不能適應大數(shù)據(jù)時代的數(shù)據(jù)存儲。據(jù)查詢是數(shù)據(jù)庫最重要的應用之一,而索引則是解決數(shù)據(jù)查詢問題的有效方案。而數(shù)據(jù)分析技術是最核心的業(yè)務【18】。2.2大數(shù)據(jù)處理工具關系數(shù)據(jù)庫在很長的時間里成為數(shù)據(jù)管理的最佳選擇,但是在大數(shù)據(jù)時代,數(shù)據(jù)管理、分析等的需求多樣化使得關系數(shù)據(jù)庫在很多場景不再適用而HadOop是目前最為流行的大數(shù)據(jù)處理平臺而Hadoop【19】最先是Doug Cutting模仿GFS,MapReduce實現(xiàn)的一個云計算
15、開源平臺,后貢獻給ApacheHadoop已經(jīng)發(fā)展成為包括文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(HBase、Cassandra)、數(shù)據(jù)處理(MapReduce)等功能模塊在內的完整生態(tài)系統(tǒng)(Ecosystem)【20】某種程度上可以說Hadoop已經(jīng)成為大數(shù)據(jù)處理工具事實上的標準【21】三、大數(shù)據(jù)時代面臨的機遇與挑戰(zhàn)綜上所述,大數(shù)據(jù)時代的數(shù)據(jù)存在著如下幾個特點:多源異構;分布廣泛;動態(tài)增長;先有數(shù)據(jù)后有模式正是這些與傳統(tǒng)數(shù)據(jù)管理迥然不同的特點,使得大數(shù)據(jù)時代的數(shù)據(jù)管理面臨著新的機遇與挑戰(zhàn)。大數(shù)據(jù)帶來的機遇【22】 1.大數(shù)據(jù)的挖掘和應用成為核心,將從多個方面創(chuàng)造價值。大數(shù)據(jù)的重心將從存儲和傳輸,過渡到
16、數(shù)據(jù)的挖掘和應用,這將深刻影響企業(yè)的商業(yè)模式 據(jù)麥肯錫測算,大數(shù)據(jù)的應用每年潛在可為美國醫(yī)療健康業(yè)和歐洲政府分別節(jié)省3000億美元和1000億歐元,利用個人位置信息潛在可創(chuàng)造出6000億美元價值,因此大數(shù)據(jù)應用具有遠超萬億美元的大市場。【23】2.大數(shù)據(jù)利用中安全更加重要,為信息安全帶來發(fā)展契機。隨著移動互聯(lián)網(wǎng)物聯(lián)網(wǎng)等新興IT技術逐漸步入主流,大數(shù)據(jù)使得數(shù)據(jù)價值極大提高,無處不在的數(shù)據(jù),對信息安全提出了更高要求 同時,大數(shù)據(jù)領域出現(xiàn)的許多新興技術與產品將為安全分析提供新的可能性; 信息安全和云計算貫穿于大數(shù)據(jù)產業(yè)鏈的各個環(huán)節(jié),云安全等關鍵技術將更安全地保護數(shù)據(jù) 大數(shù)據(jù)對信息安全的要求和促進將推
17、動信息安全產業(yè)的大發(fā)展。3.大數(shù)據(jù)時代來臨,使商業(yè)智能信息安全和云計算具有更大潛力。大數(shù)據(jù)產業(yè)鏈按產品形態(tài)分為硬件基礎軟件和應用軟件三大領域,商業(yè)智能信息安全和云計算主題橫跨三大領域,將構成產業(yè)鏈中快速發(fā)展的三駕馬車就國內而言,商業(yè)智能市場已步入成長期,預計未來3年復合年均增長率( CAGR) 為35%,十二五期間潛在產值將超300億元; 信息安全預計未來3年CAGR有望保持35%40%的快速增長,十二五期間潛在產值將超4000億元; 云計算剛進入成長期,預計未來5年CAGR將超50%,2015年產業(yè)規(guī)模預計將達1萬億元。(1) 面臨的挑戰(zhàn)1. 大數(shù)據(jù)集成數(shù)據(jù)的廣泛存在性使得數(shù)據(jù)越來越多地散布
18、于不同的數(shù)據(jù)管理系統(tǒng)中,為了便于進行數(shù)據(jù)分析需要進行數(shù)據(jù)的集成數(shù)據(jù)集成看起來并不是一個新的問題,但是大數(shù)據(jù)時代的數(shù)據(jù)集成卻有了新的需求,因此也面臨著新的挑戰(zhàn)1) 廣泛的異構性傳統(tǒng)的數(shù)據(jù)集成中也會面對數(shù)據(jù)異構的問題,但是在大數(shù)據(jù)時代這種異構性出現(xiàn)了新的變化,大量出現(xiàn)的各種數(shù)據(jù)本身是非結構化的或弱結構化的,如留言、博客、圖像、視頻數(shù)據(jù)等,如何將這些數(shù)據(jù)轉化成一個結構化的格式是研究者面臨的一項重大挑戰(zhàn)【25】2) 數(shù)據(jù)質量數(shù)據(jù)量大不一定就代表信息量或者數(shù)據(jù)價值的增大,相反很多時候意味著信息垃圾的泛濫.2. 大數(shù)據(jù)分析大數(shù)據(jù)最為嚴重的風險存在于數(shù)據(jù)分析層面。數(shù)據(jù)量的增大會帶來規(guī)律的喪失和嚴重失真?!?
19、6】傳統(tǒng)意義上的數(shù)據(jù)分析主要針對結構化數(shù)據(jù)展開,且已經(jīng)形成了一整套行之有效的分析體系首先利用數(shù)據(jù)庫來存儲結構化數(shù)據(jù),在此基礎上構建數(shù)據(jù)倉庫,根據(jù)需要構建數(shù)據(jù)立方體進行聯(lián)機分析處理(online analytical processing,OI。AP),可以進行多個維度的下鉆(drill一down)或上卷(rollup)操作對于從數(shù)據(jù)中提煉更深層次的知識的需求促使數(shù)據(jù)挖掘技術的產生,并發(fā)明了聚類、關聯(lián)分析等一系列在實踐中行之有效的方法這一整套處理流程在處理相對較少的結構化數(shù)據(jù)時極為高效但是隨著大數(shù)據(jù)時代的到來,半結構化和非結構化數(shù)據(jù)量的迅猛增長,給傳統(tǒng)的分析技術帶來了巨大的沖擊和挑戰(zhàn)。據(jù)阿里巴巴
20、稱,雖然其各類業(yè)務產生的數(shù)據(jù)為數(shù)據(jù)分析創(chuàng)造了非常好的基礎條件,然而卻招聘不到合適的數(shù)據(jù)科學家而影響了研發(fā)進展【27】。3. 大數(shù)據(jù)的隱私問題隱私問題由來已久,這基本也是大家最關心的問題。計算機的出現(xiàn)使得越來越多的數(shù)據(jù)以數(shù)字化的形式存儲在電腦中,互聯(lián)網(wǎng)的發(fā)展則使數(shù)據(jù)更加容易產生和傳播,數(shù)據(jù)隱私問題越來越嚴重大數(shù)據(jù)高度依賴數(shù)據(jù)存儲與共享,必須考慮尋求更好的方法消除各種隱患與漏洞,才能有效地管控安全風險。數(shù)據(jù)的隱私保護是大數(shù)據(jù)分析和處理面臨的重要問題,既是技術問題也是社會學問題。如果對私人數(shù)據(jù)使用不當,尤其是泄漏有一定關聯(lián)的多組數(shù)據(jù),將導致用戶的隱私泄漏【28】。當前,數(shù)據(jù)安全形勢不容樂觀,需要保護
21、的數(shù)據(jù)量增長已超過了數(shù)據(jù)總量的增長 據(jù)IDC統(tǒng)計【29】:2010年僅有不到1/3的數(shù)據(jù)需要保護,到2020年這一比例將超過2/5; 2012年的統(tǒng)計顯示,雖然有35%的信息需要保護,但實際得到保護的不到20% 在亞洲 南美等新興市場,數(shù)據(jù)保護的缺失更加嚴重 首先個人隱私更容易通過網(wǎng)絡泄露,隨著電子商務 社交網(wǎng)絡的興起,人們通過網(wǎng)絡聯(lián)系的日益緊密,將個人的相關數(shù)據(jù)足跡聚集起來分析,可以很容易獲取個人的相關信息,隱私數(shù)據(jù)就可能暴露,而數(shù)據(jù)在網(wǎng)絡上的發(fā)布機制使得這種暴露似乎防不勝防; 在國家層面,大數(shù)據(jù)可能給國家安全帶來隱患,如果在大數(shù)據(jù)處理方面落后,就可能導致數(shù)據(jù)的單向透明。信息安全戰(zhàn)略是國家戰(zhàn)
22、略不可分割的重要組成部分,其必要性體現(xiàn)在其從上而下,而非從下而上的推動作用?!?0】美國發(fā)布大數(shù)據(jù)研發(fā)計劃,大力發(fā)展大大數(shù)據(jù)技術就有增強國家安全方面的戰(zhàn)略考量.4. 大數(shù)據(jù)能耗問題在能源價格上漲、數(shù)據(jù)中心存儲規(guī)模不斷擴大的今天,高能耗已逐漸成為制約大數(shù)據(jù)快速發(fā)展的一個主要瓶頸從小型集群到大規(guī)模數(shù)據(jù)中心都面臨著降低能耗的問題,但是尚未引起足夠多的重視,相關的研究成果也較少在大數(shù)據(jù)管理系統(tǒng)中,能耗主要由兩大部分組成:硬件能耗和軟件能耗,二者之中又以硬件能耗為主理想狀態(tài)下,整個大數(shù)據(jù)管理系統(tǒng)的能耗應該和系統(tǒng)利用率成正比但是實際情況并不像預期情況,系統(tǒng)利用率為0時仍然有能量消耗【31】。5.大數(shù)據(jù)處理
23、與硬件的協(xié)同硬件的快速升級換代有力地促進了大數(shù)據(jù)的發(fā)展,但是這也在一定程度上造成了大量不同架構硬件共存的局面.大數(shù)據(jù)處理必須要有舍才有得??梢酝ㄟ^舍棄一些不必要的性能和精確性來獲取更為重要的性能和精確性?!?2】6. 大數(shù)據(jù)管理易用性問題從數(shù)據(jù)集成到數(shù)據(jù)分析,直到最后的數(shù)據(jù)解釋,易用性應當貫穿整個大數(shù)據(jù)的流程易用性的挑戰(zhàn)突出體現(xiàn)在兩個方面:首先大數(shù)據(jù)時代的數(shù)據(jù)量大,分析更復雜,得到的結果形式更加多樣化其復雜程度已經(jīng)遠遠超出傳統(tǒng)的關系數(shù)據(jù)庫其次大數(shù)據(jù)已經(jīng)廣泛滲透到人們生活的各個方面,很多行業(yè)都開始有了大數(shù)據(jù)分析的需求但是這些行業(yè)的絕大部分從業(yè)者都不是數(shù)據(jù)分析的專家,在復雜的大數(shù)據(jù)工具面前,他們只
24、是初級的使用者(naIve users)復雜的分析過程和難以理解的分析結果限制了他們從大數(shù)據(jù)中獲取知識的能力這兩個原因導致易用性成為大數(shù)據(jù)時代軟件工具設計的一個巨大挑戰(zhàn)關于大數(shù)據(jù)易用性的研究仍處于一個起步階段從設計學的角度來看易用性表現(xiàn)為易見(easy to discover)、易學(easy to learn)和易用(easy to use)。7. 性能測試基準數(shù)據(jù)庫產品的成功離不開以TPC系列為代表的測試基準的產生正是有了這些測試基準,才能夠準確地衡量不同數(shù)據(jù)庫產品的性能,并對其存在的問題進行改進。在過去20年里,產業(yè)基準起到了很大的作用。在制定行業(yè)的標準時,性能、持有成本和能源效率是成功
25、的三大關鍵。產業(yè)界標準的基準都扮演了非常重要的作用,進一步推動了計算機產業(yè)科學的發(fā)展【33】。4、 結果和結論關系像互聯(lián)網(wǎng)、云計算以及物聯(lián)網(wǎng)等技術一樣,大數(shù)據(jù)時代的到來勢必會再次讓信息技術領域煥然一新。大數(shù)據(jù)時代下,每個個體都是數(shù)據(jù)的產生者,企業(yè)的任何一項業(yè)務活動都可以用數(shù)據(jù)來表示,如何保證大數(shù)據(jù)的質量,如何建模、提取并利用隱藏在大數(shù)據(jù)中的信息以提升企業(yè)信息系統(tǒng)績效、提升企業(yè)決策能力,成為擺在業(yè)界和學術界面前的重大難題??偟膩碚f,目前對于大數(shù)據(jù)的研究仍處于一個非常初步的階段,還有很多基礎性的問題有待解決大數(shù)據(jù)的幾個特征中究竟哪個最重要?面對大數(shù)據(jù)管理我們需要的是簡單的技術上的演變(evo1ut
26、ion)還是徹底的變革(revoIution)?不同學科的研究者之間怎樣協(xié)作才能更有利于大數(shù)據(jù)問題的解決?諸如此類的問題還有許多,要解決大數(shù)據(jù)問題仍有很長的路要走。參考文獻1孟小峰,慈祥: 大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)。計算機研究與發(fā)展146-169,20132阿爾溫 托夫勒 第三次浪潮M 北京: 三聯(lián)書店出版社,19843Jim Gray One Science A transformed scientific methodC/Tony H,Stewart T,Kirstin T The fourth paradigm: Dataintensive scientific discoveryR
27、edmond,WA: Microsoft Research,2009: 19334Nature.BigDataEB/OL. data/indexhtml5 Science.Special online collection: Dealing with dataEB/OL http: /wwwsciencemagorg/site/special/data/,20116李國杰,程學旗大數(shù)據(jù)研究: 未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域 大數(shù)據(jù)的研究現(xiàn)狀與科學思考J 戰(zhàn)略與決策研究,2012,27( 6) :648,6497Big Data: The next frontier for innovat
28、ion,competition and productivity,Mckinsey Global Institute,20118The2011Digital Universe Study: Extracting Value from Chaos International Data Corporation and EMC,June 20119 Big Data across the Federal Government EB/OLhttp: /wwwWhite house gov/sites/default/files/microsites/ostp/big data fact sheet f
29、inal 1pdf10 UN Global Pulse Big Data for Development:Challenges OpportunitiesR/OL.http: //projects/BigDataforDevelopment11涂子沛 大數(shù)據(jù): 正在到來的數(shù)據(jù)革命M 桂林:廣西師范大學出版社,2012:575512覃雄派,王會舉,杜小勇,等。大數(shù)據(jù)分析RDBMS與Mapreduse的競爭共性【J】。軟件學報,2012,23(1),32-45.13郭秦川:官方統(tǒng)計與大數(shù)據(jù)對比分析。10047794(2013)080050-614涂子沛,大數(shù)據(jù)(M),廣州:廣州師范大學出版社。15朱志軍,閏蕾,等大數(shù)據(jù)大價值、大機遇、大變革M】電子工業(yè)出版社,201216大數(shù)據(jù)分析技術的發(fā)展EB/OL 20120516 http: /tech ccidnet com/art/32963/20120516/3859
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基層公共衛(wèi)生考試模擬題(含答案)
- 2025屆廣東省汕頭市潮南實驗學校校高考沖刺模擬英語試題含答案
- 鉗工四級理論知識復習題(附參考答案)
- 車工高級工模擬習題(附參考答案)
- 職業(yè)技術學院2024級嬰幼兒托育服務與管理專業(yè)人才培養(yǎng)方案
- 助產技術-娠合并癥專項考核試題
- 眼鏡生產過程中的品質監(jiān)控手段考核試卷
- 糖品包裝設計與可持續(xù)發(fā)展理念考核試卷
- 健康飲食食物中的銅與貧血的預防考核試卷
- 聚合纖維在能源儲存領域的應用考核試卷
- 用電安全及防雷防靜電知識考核試卷
- 《成人心肺復蘇術》課件
- 低空空域資源的協(xié)調與管理策略
- 高教版2023年中職教科書《語文》(基礎模塊)下冊教案全冊
- 服務機器人的智能導航與定位考核試卷
- 3.2.1.1函數(shù)的單調性課件-高一上學期數(shù)學人教A版(2019)必修第一冊
- 噬血細胞綜合征并發(fā)患者的個案護理課件
- 2025新譯林版英語七年級下單詞默寫單
- 2024年長沙市事業(yè)單位招聘計算機崗位專業(yè)知識試題
- 2024年中國心力衰竭診斷和治療指南2024版
- 超齡員工用工免責協(xié)議書
評論
0/150
提交評論