




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
日新月異的大數(shù)據(jù)
引導(dǎo)大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,給信息技術(shù)的發(fā)展帶來(lái)了巨大變革,也深刻影響著社會(huì)生產(chǎn)和人們生活的方方面面。在全球范圍內(nèi),世界各國(guó)均高度重視大數(shù)據(jù)相關(guān)技術(shù)的研究和產(chǎn)業(yè)發(fā)展,紛紛把大數(shù)據(jù)上升為國(guó)家戰(zhàn)略,并加以重點(diǎn)推進(jìn)。2學(xué)習(xí)目標(biāo)【知識(shí)目標(biāo)】掌握大數(shù)據(jù)的概念;掌握大數(shù)據(jù)的關(guān)鍵技術(shù);了解大數(shù)據(jù)的相關(guān)應(yīng)用?!炯寄苣繕?biāo)】熟悉大數(shù)據(jù)技術(shù)應(yīng)用的基本過(guò)程;熟悉大數(shù)據(jù)相關(guān)應(yīng)用的內(nèi)在原理;掌握大數(shù)據(jù)技術(shù)的存儲(chǔ)和處理流程?!舅刭|(zhì)目標(biāo)】培養(yǎng)學(xué)生運(yùn)用大數(shù)據(jù)思維方式分析問(wèn)題的意識(shí);強(qiáng)化學(xué)生的團(tuán)隊(duì)協(xié)作意識(shí)和處理綜合問(wèn)題的能力。3思維導(dǎo)圖44.1大數(shù)據(jù)概述
序:6
對(duì)于一個(gè)國(guó)家而言,能否緊緊抓住大數(shù)據(jù)發(fā)展機(jī)遇,快速形成核心技術(shù)和應(yīng)用并參與新一輪的全球化競(jìng)爭(zhēng),將直接決定未來(lái)若干年世界范圍內(nèi)各國(guó)科技力量博弈的格局。大數(shù)據(jù)專業(yè)人才的培養(yǎng)是新一輪科技較量的基礎(chǔ),高等院校承擔(dān)著大數(shù)據(jù)人才培養(yǎng)的重任,因此,各高等院校非常重視大數(shù)據(jù)課程的開設(shè),大數(shù)據(jù)課程已經(jīng)成為計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的核心課程。4.1.1概念7
大數(shù)據(jù)技術(shù)是指以大數(shù)據(jù)為基礎(chǔ),利用大數(shù)據(jù)分析技術(shù),從海量數(shù)據(jù)中提取有價(jià)值的信息,從而支持企業(yè)決策的技術(shù)。它是一種新興的技術(shù),它可以幫助企業(yè)更好地利用數(shù)據(jù),提高企業(yè)的效率和效益。大數(shù)據(jù)技術(shù)包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化和數(shù)據(jù)倉(cāng)庫(kù)等。大數(shù)據(jù)是一個(gè)體量特別大、數(shù)據(jù)類型特別多的數(shù)據(jù)集,且這樣的數(shù)據(jù)集無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。目前所說(shuō)的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)。4.1.2特征
大數(shù)據(jù)的定義多而雜,但是內(nèi)涵都差不多,即大數(shù)據(jù)由巨型數(shù)據(jù)集組成,這些數(shù)據(jù)集規(guī)模超出了常用軟件在可接受時(shí)間下的收集、管理、處理和使用能力。雖然大數(shù)據(jù)的定義沒(méi)有統(tǒng)一,但是國(guó)際知名公司IBM定義的大數(shù)據(jù)的五個(gè)特征卻受到業(yè)界的廣泛認(rèn)可,也就是5V特征:Volume(數(shù)據(jù)量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(數(shù)據(jù)處理速度快)、Value(數(shù)據(jù)價(jià)值密度低)和Veracity(數(shù)據(jù)具備真實(shí)性)。8數(shù)據(jù)量大9
傳感器、物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦等均是大數(shù)據(jù)的源頭,生活在數(shù)字時(shí)代的我們天天都在產(chǎn)生著數(shù)量的數(shù)據(jù)(如微信、QQ聊天,上網(wǎng)搜索,網(wǎng)上購(gòu)物等產(chǎn)生的數(shù)據(jù))。從數(shù)據(jù)量的角度而言,大數(shù)據(jù)泛指無(wú)法在可容忍的時(shí)間內(nèi)用傳統(tǒng)信息技術(shù)和軟硬件工具對(duì)其進(jìn)行獲取、管理和處理的巨量數(shù)據(jù)集合,需要可伸縮的計(jì)算體系結(jié)構(gòu)以支持其存儲(chǔ)、處理和分析。
大數(shù)據(jù)不再以GB或TB為單位來(lái)衡量,而是以PB(1000TB)、EB(100萬(wàn)TB)或ZB(10億TB)為計(jì)量單位。因此,數(shù)據(jù)量大是大數(shù)據(jù)的首要特征。數(shù)據(jù)量大10
根據(jù)著名咨詢機(jī)構(gòu)互聯(lián)網(wǎng)數(shù)據(jù)中心(InternetDataCenter,IDC)做出的估測(cè),人類社會(huì)產(chǎn)生的數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng),也就是說(shuō),大約每?jī)赡陻?shù)據(jù)量就翻番,這被稱為“大數(shù)據(jù)摩爾定律”。這意味著,人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量之和。預(yù)計(jì)2020年,全球?qū)⒖偣矒碛?5ZB(數(shù)據(jù)存儲(chǔ)單位之間的換算關(guān)系見(jiàn)表4-1)的數(shù)據(jù)量,是2010年的數(shù)據(jù)量的近30倍。數(shù)據(jù)量大11存儲(chǔ)單位換算關(guān)系Byte(字節(jié))1Byte=8bitKB(千字節(jié))1KB=1024ByteMB(兆字節(jié))1MB=1024KBGB(吉字節(jié))1GB=1024MBTB(太字節(jié))1TB=1024GBPB(拍字節(jié))1PB=1024TBEB(艾字節(jié))1EB=1024PBZB(澤字節(jié))1ZB=1024EB數(shù)據(jù)類型繁多12大數(shù)據(jù)的來(lái)源眾多,如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。生物大數(shù)據(jù)、交通大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、電信大數(shù)據(jù)、電力大數(shù)據(jù)和金融大數(shù)據(jù)等都呈現(xiàn)出“井噴式”增長(zhǎng)態(tài)勢(shì),所涉及的數(shù)據(jù)量十分巨大,已經(jīng)從TB級(jí)別躍升到PB級(jí)別。各行各業(yè)每時(shí)每刻都在生成各種不同類型的數(shù)據(jù)。數(shù)據(jù)類型繁多13消費(fèi)者大數(shù)據(jù)2020年,我國(guó)移動(dòng)互聯(lián)網(wǎng)用戶數(shù)量穩(wěn)步增長(zhǎng),但增速卻持續(xù)放緩。2020年我國(guó)4G用戶總數(shù)達(dá)到12.89億戶,占移動(dòng)電話用戶數(shù)的80.8%。我國(guó)5G用戶規(guī)??焖贁U(kuò)大,5G終端連接數(shù)突破2億戶。截至2020年12月,中國(guó)手機(jī)網(wǎng)民規(guī)模已達(dá)9.86億,每日新增據(jù)量達(dá)到18TB,累計(jì)存儲(chǔ)量超過(guò)900PB。2020年,國(guó)內(nèi)智能手機(jī)出貨量2.96億部,智能音箱市場(chǎng)銷量3676萬(wàn)臺(tái),智能家居設(shè)備市場(chǎng)出貨量為2億臺(tái)。同時(shí),2020年中國(guó)可穿戴設(shè)備市場(chǎng)出貨量近1.1億臺(tái),其中智能藍(lán)牙耳機(jī)市場(chǎng)出貨量5078萬(wàn)臺(tái),成人智能手表市場(chǎng)出貨量1532萬(wàn)臺(tái)。2020年國(guó)內(nèi)市場(chǎng)5G手機(jī)累計(jì)出貨量1.63億部,上市新機(jī)型累計(jì)218款。
國(guó)內(nèi)市場(chǎng)的移動(dòng)應(yīng)用數(shù)量小幅減少。截至2020年12月,國(guó)內(nèi)市場(chǎng)監(jiān)測(cè)到的相關(guān)App數(shù)量為345萬(wàn)款,較2019年減少22萬(wàn)款。其中,游戲類、音樂(lè)視頻類、日常工具類、社交軟件類、系統(tǒng)工具類App下載量排在前列。數(shù)據(jù)類型繁多14金融大數(shù)據(jù)。
隨著信息技術(shù)的飛速發(fā)展,特別是云計(jì)算、大數(shù)據(jù)技術(shù)在電子商務(wù)、證券期貨、互聯(lián)網(wǎng)金融等領(lǐng)域的廣泛應(yīng)用,未來(lái)金融業(yè)的核心競(jìng)爭(zhēng)力很大程度上依賴于從大數(shù)據(jù)中提取信息和知識(shí)的速度快慢與能力大小,而這種速度和能力,取決于數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)應(yīng)用的水平。隨著互聯(lián)網(wǎng)金融、移動(dòng)支付等新型金融業(yè)態(tài)的不斷涌現(xiàn),強(qiáng)化以“用戶為中心”的服務(wù)模式將成為未來(lái)金融業(yè)的重要發(fā)展方向,這一變化有助于金融產(chǎn)品創(chuàng)新、精準(zhǔn)營(yíng)銷和風(fēng)險(xiǎn)管理,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)向市場(chǎng)競(jìng)爭(zhēng)力的。
據(jù)不完全統(tǒng)計(jì),中國(guó)平安有約8.8億客戶的臉譜和信用信息,以及近5000萬(wàn)個(gè)聲紋庫(kù);中國(guó)工商銀行擁有約5.5億個(gè)人客戶,全行數(shù)據(jù)量超過(guò)60PB;中國(guó)建設(shè)銀行擁有超過(guò)5億的客戶,手機(jī)銀行用戶達(dá)到1.8億,網(wǎng)銀用戶超過(guò)2億,數(shù)據(jù)存儲(chǔ)量達(dá)到100PB。數(shù)據(jù)類型繁多15醫(yī)療大數(shù)據(jù)
隨著我國(guó)醫(yī)療衛(wèi)生事業(yè)的發(fā)展,國(guó)內(nèi)的醫(yī)療信息化建設(shè)已經(jīng)取得了顯著的成就。醫(yī)院每天會(huì)有PB級(jí)的數(shù)據(jù)增加,數(shù)據(jù)涉及的方向和維度也不斷增多,因此數(shù)據(jù)展示仍然面臨很大困難。一個(gè)人擁有約1014個(gè)細(xì)胞、109個(gè)堿基,一次全面的基因測(cè)序產(chǎn)生的個(gè)人數(shù)據(jù)可以達(dá)到100~600GB。在醫(yī)學(xué)影像中,一次3D核磁共振檢查可以產(chǎn)生約150MB的數(shù)據(jù),一張CT圖像約產(chǎn)生150MB的數(shù)據(jù)。
綜上所述,大數(shù)據(jù)的數(shù)據(jù)量非常大,但是其總體可以分成兩大類,即結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。其中,前者占10%左右,主要是指存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù);后者占90%左右,且種類繁多,包括電子郵件、音頻、視頻、位置信息、鏈接信息、手機(jī)呼叫信息和網(wǎng)絡(luò)日志等。處理速度快16
數(shù)據(jù)增長(zhǎng)速度快,這就要求系統(tǒng)需要對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)分析和處理以便及時(shí)丟棄。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的地方(傳統(tǒng)數(shù)據(jù)采用事后批處理的方式)。在Web2.0應(yīng)用領(lǐng)域,在1分鐘內(nèi),新浪可以產(chǎn)生20000條微博,Twitter可以產(chǎn)生100000條推文,Apple可以產(chǎn)生下載47000萬(wàn)次應(yīng)用的數(shù)據(jù),淘寶可以賣出60000件商品,百度可以產(chǎn)生900000次搜索查詢的數(shù)據(jù),F(xiàn)acebook可以產(chǎn)生6000000次瀏覽量。
高性能計(jì)算(HighPerformanceComputing,HPC)發(fā)展迅猛,中國(guó)作為HPC的新興市場(chǎng),未來(lái)巨大的市場(chǎng)份額不僅吸引了全球眾多的HPC廠商,也激勵(lì)了本土企業(yè)(如曙光)的崛起。作為中國(guó)本土“高性能計(jì)算領(lǐng)跑者”的曙光公司,曾進(jìn)入全球HPC銷售額十強(qiáng)。另外,量子計(jì)算機(jī)的逐步商業(yè)化應(yīng)用,也將使得大數(shù)據(jù)高速處理方法的研究如虎添翼。數(shù)據(jù)價(jià)值密度低17
大數(shù)據(jù)雖然看起來(lái)很“美”,但是其數(shù)據(jù)價(jià)值密度遠(yuǎn)遠(yuǎn)低于傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)價(jià)值密度。在大數(shù)據(jù)時(shí)代,很多有價(jià)值的信息是分散在海量數(shù)據(jù)中的。以小區(qū)監(jiān)控?cái)z像頭為例,如果沒(méi)有意外事件發(fā)生,則連續(xù)不斷產(chǎn)生的數(shù)據(jù)都是沒(méi)有任何價(jià)值的,當(dāng)發(fā)生偷盜等意外情況時(shí),也只有記錄了事件過(guò)程的那一小段視頻有價(jià)值。但是為了能夠獲得發(fā)生偷盜等意外情況時(shí)的那一段有價(jià)值的視頻,人們不得不投入大量資金購(gòu)買監(jiān)控設(shè)備、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備和耗費(fèi)大量的電能和存儲(chǔ)空間來(lái)保存攝像頭連續(xù)不斷產(chǎn)生的監(jiān)控?cái)?shù)據(jù)。數(shù)據(jù)具備真實(shí)性18
數(shù)據(jù)的真實(shí)性是指大數(shù)據(jù)的質(zhì)量?jī)?yōu)劣,大數(shù)據(jù)的內(nèi)容是與真實(shí)世界息息相關(guān)的,真實(shí)不一定代表準(zhǔn)確,但一定不是虛假數(shù)據(jù),這也是數(shù)據(jù)分析的基礎(chǔ)?;谡鎸?shí)的交易與用戶行為產(chǎn)生的數(shù)據(jù)才有意義。因此,如何識(shí)別造假數(shù)據(jù),更是值得研究的領(lǐng)域。
如今,幾乎每個(gè)企業(yè)都在使用大數(shù)據(jù)。大數(shù)據(jù)分析提供了一個(gè)真正具有潛在利益的礦藏,大數(shù)據(jù)的真實(shí)性體現(xiàn)在數(shù)據(jù)的質(zhì)量上。質(zhì)量好的數(shù)據(jù)能夠給生產(chǎn)和生活帶來(lái)前所未有的效益。4.1.3發(fā)展歷程19
大數(shù)據(jù)是信息技術(shù)發(fā)展的必然產(chǎn)物,推動(dòng)了數(shù)字經(jīng)濟(jì)的形成與繁榮,它的出現(xiàn)標(biāo)志著信息化進(jìn)程進(jìn)入發(fā)展新階段。當(dāng)前,我們正在進(jìn)入以數(shù)據(jù)的深度挖掘和融合應(yīng)用為主要特征的大數(shù)據(jù)時(shí)代?;仡櫞髷?shù)據(jù)的發(fā)展歷程,可以大致分為以下四個(gè)時(shí)期:萌芽期、成長(zhǎng)期、爆發(fā)期和大規(guī)模應(yīng)用期。萌芽期(1980-2008年)20
大數(shù)據(jù)的概念被提出,相關(guān)技術(shù)也得到一定程度的傳播,但沒(méi)有得到實(shí)質(zhì)性發(fā)展。同一時(shí)期,隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫(kù)技術(shù)的逐步成熟,一批商業(yè)智能工具和知識(shí)管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉(cāng)庫(kù)、專家系統(tǒng)、知識(shí)管理系統(tǒng)等。成長(zhǎng)期(2009-2012年)21
大數(shù)據(jù)市場(chǎng)迅速成長(zhǎng),互聯(lián)網(wǎng)數(shù)據(jù)呈爆發(fā)式增長(zhǎng),大數(shù)據(jù)技術(shù)逐漸被大眾熟悉并使用。截至2009年12月31日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計(jì)數(shù)據(jù)顯示,2019年中國(guó)網(wǎng)民規(guī)模達(dá)到3.84億人,互聯(lián)網(wǎng)普及率達(dá)到28.9%。寬帶網(wǎng)民規(guī)模達(dá)到3.46億人。國(guó)際出口帶寬達(dá)866,367Mbit/s?;ヂ?lián)網(wǎng)數(shù)據(jù)呈爆發(fā)式增長(zhǎng)。爆發(fā)期(2013-2015年)22
大數(shù)據(jù)迎來(lái)了發(fā)展的高潮階段,包括我國(guó)在內(nèi)的世界各個(gè)國(guó)家紛紛布局大數(shù)據(jù)戰(zhàn)略。2013年也被稱為大數(shù)據(jù)元年,以百度、阿里、騰訊為代表的國(guó)內(nèi)互聯(lián)網(wǎng)公司各顯身手,紛紛推出創(chuàng)新性的大數(shù)據(jù)應(yīng)用。國(guó)家統(tǒng)計(jì)局與阿里、百度等11家企業(yè)簽署了戰(zhàn)略合作框架協(xié)議,推動(dòng)大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用。大規(guī)模應(yīng)用期(2016年至今)23
大數(shù)據(jù)應(yīng)用滲透至各行各業(yè),大數(shù)據(jù)價(jià)值不斷凸顯,數(shù)據(jù)驅(qū)動(dòng)決策和社會(huì)智能化程度大幅提高,大數(shù)據(jù)產(chǎn)業(yè)迎來(lái)快速發(fā)展和大規(guī)模應(yīng)用實(shí)施。2016年1月,《貴州省大數(shù)據(jù)發(fā)展應(yīng)用促進(jìn)條例》出臺(tái),成立全國(guó)首部大數(shù)據(jù)地方法規(guī)。4.2大數(shù)據(jù)關(guān)鍵技術(shù)
4.2.1大數(shù)據(jù)技術(shù)應(yīng)用的基本流程25
討論大數(shù)據(jù)技術(shù)時(shí),首先需要了解大數(shù)據(jù)的基本處理流程,主要包括數(shù)據(jù)采集、存儲(chǔ)、分析和結(jié)果呈現(xiàn)等環(huán)節(jié)。
數(shù)據(jù)無(wú)處不在,互聯(lián)網(wǎng)網(wǎng)站、政務(wù)系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、自動(dòng)化生產(chǎn)系統(tǒng)、監(jiān)控?cái)z像頭和傳感器等每時(shí)每刻都在不斷產(chǎn)生數(shù)據(jù)。這些分散在各處的數(shù)據(jù)需要采用相應(yīng)的設(shè)備或軟件進(jìn)行采集。采集到的數(shù)據(jù)通常無(wú)法直接用于后續(xù)的數(shù)據(jù)分析,因?yàn)閷?duì)于來(lái)源眾多、類型多樣的數(shù)據(jù)而言,數(shù)據(jù)缺失和語(yǔ)義模糊等問(wèn)題是不可避免的,必須采取相應(yīng)措施有效解決這些問(wèn)題,這就需要一個(gè)被稱為“數(shù)據(jù)預(yù)處理”的過(guò)程,把數(shù)據(jù)變成一個(gè)可用的狀態(tài)。數(shù)據(jù)經(jīng)過(guò)預(yù)處理以后會(huì)被放到文件系統(tǒng)或數(shù)據(jù)庫(kù)系統(tǒng)中進(jìn)行存儲(chǔ)與管理,再采用數(shù)據(jù)挖掘工具對(duì)數(shù)據(jù)進(jìn)行處理分析,最后采用可視化工具為用戶呈現(xiàn)結(jié)果。在整個(gè)數(shù)據(jù)處理流程中,必須注意隱私保護(hù)和數(shù)據(jù)安全問(wèn)題。數(shù)據(jù)采集與預(yù)處理利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等,抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ);也可以利用日志采集工具(如Flume、Kafka等)把實(shí)時(shí)采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入,進(jìn)行實(shí)時(shí)處理分析。26數(shù)據(jù)存儲(chǔ)與管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)、云數(shù)據(jù)等,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)和管理。27數(shù)據(jù)處理與分析利用分布式并行編程模式和計(jì)算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理和分析;對(duì)分析結(jié)果進(jìn)行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)。28數(shù)據(jù)安全與隱私保護(hù)在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價(jià)值和學(xué)術(shù)價(jià)值的同時(shí),構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系,有效保護(hù)個(gè)人隱私和數(shù)據(jù)安全。294.2.2大數(shù)據(jù)的計(jì)算形式
所謂大數(shù)據(jù)計(jì)算形式,即依據(jù)大數(shù)據(jù)的不同數(shù)據(jù)特征和計(jì)算特征,從多樣性的大數(shù)據(jù)計(jì)算問(wèn)題和需求中提煉并樹立的各種高層籠統(tǒng)或模型如加州大學(xué)伯克利分校著名的Spark系統(tǒng)中的“散布內(nèi)存籠統(tǒng)”,卡內(nèi)基梅隆大學(xué)著名的圖計(jì)算系統(tǒng)GraphLab中的“圖并行籠統(tǒng)”等。傳統(tǒng)的并行計(jì)算辦法主要從體系構(gòu)造和編程語(yǔ)言的層面定義了一些較為底層的并行計(jì)算籠統(tǒng)和模型,但大數(shù)據(jù)處置問(wèn)題具有很多高層的數(shù)據(jù)特征和計(jì)算特征,因此大數(shù)據(jù)處置需要更多地分離這些高層特征并思索更為高層的計(jì)算形式。
30典型的計(jì)算機(jī)模式依據(jù)大數(shù)據(jù)處置多樣性的需求和以上不同的特征維度,目前呈現(xiàn)了多種典型和重要的大數(shù)據(jù)計(jì)算形式。31大數(shù)據(jù)計(jì)算模式解決問(wèn)題代表產(chǎn)品批處理計(jì)算針對(duì)大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計(jì)算針對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺(tái)等圖計(jì)算針對(duì)大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計(jì)算大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析Dremel、Hive、Cassandra、Impala等MapReduce由于MapReduce主要合適于停滯大數(shù)據(jù)線下批處置,在面向低延遲和具有復(fù)雜數(shù)據(jù)關(guān)系和復(fù)雜計(jì)算的大數(shù)據(jù)問(wèn)題時(shí)有很大的不順應(yīng)性。大數(shù)據(jù)處理的問(wèn)題復(fù)雜多樣,單一的計(jì)算模式是無(wú)法滿足不同類型的計(jì)算需求的,MapReduce其實(shí)只是大數(shù)據(jù)計(jì)算模式中的一種,它代表了針對(duì)大規(guī)模數(shù)據(jù)的批量處理技術(shù)。
32批處理計(jì)算批處理計(jì)算主要解決針對(duì)大規(guī)模數(shù)據(jù)的批量處理,也是我們?nèi)粘?shù)據(jù)分析工作中非常常見(jiàn)的一類數(shù)據(jù)處理需求。Spark是一個(gè)針對(duì)超大數(shù)據(jù)集合的低延遲的集群分布式計(jì)算系統(tǒng),比MapReduce快許多。Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,還可以優(yōu)化迭代工作負(fù)載。33流計(jì)算流數(shù)據(jù)也是大數(shù)據(jù)分析中的重要數(shù)據(jù)類型。流數(shù)據(jù)(或數(shù)據(jù)流)是指在時(shí)間分布和數(shù)量上無(wú)限的一系列動(dòng)態(tài)數(shù)據(jù)集合體,數(shù)據(jù)的價(jià)值隨著時(shí)間的流逝而降低,因此必須采用實(shí)時(shí)計(jì)算的方式給出秒級(jí)響應(yīng)。34目前業(yè)內(nèi)已涌現(xiàn)出許多的流計(jì)算框架與平臺(tái):第一類是商業(yè)級(jí)的流計(jì)算平臺(tái),包括IBMInfoSphereStreams等;第二類是開源流計(jì)算框架,包括TwitterStorm、Yahoo!S4、SparkStreaming等;第三類是公司為支持自身業(yè)務(wù)開發(fā)的流計(jì)算框架,如Facebook使用Puma和HBase相結(jié)合來(lái)處理實(shí)時(shí)數(shù)據(jù),百度開發(fā)了通用實(shí)時(shí)流數(shù)據(jù)計(jì)算系統(tǒng)DStream,淘寶開發(fā)了通用流數(shù)據(jù)實(shí)時(shí)計(jì)算系統(tǒng)——銀河流數(shù)據(jù)處理平臺(tái)。圖計(jì)算在大數(shù)據(jù)時(shí)代,許多大數(shù)據(jù)都是以大規(guī)模圖或網(wǎng)絡(luò)的形式呈現(xiàn),如社交網(wǎng)絡(luò)、傳染病傳播途徑、交通事故對(duì)路網(wǎng)的影響等,此外,許多非圖結(jié)構(gòu)的大數(shù)據(jù)也常常會(huì)被轉(zhuǎn)換為圖模型后再進(jìn)行處理分析。35Pregel主要用于圖遍歷、最短路徑、PageRank計(jì)算等。其他代表性的圖計(jì)算產(chǎn)品還包括:Facebook針對(duì)Pregel的開源實(shí)現(xiàn)Giraph;Spark下的GraphX;
圖數(shù)據(jù)處理系統(tǒng)PowerGraph等。查詢分析針對(duì)超大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析,需要提供實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的響應(yīng),才能很好地滿足企業(yè)經(jīng)營(yíng)管理需求。36谷歌公司開發(fā)的Dremel是一種可擴(kuò)展的、交互式的實(shí)時(shí)查詢系統(tǒng),用于只讀嵌套數(shù)據(jù)的分析。4.2.3HadoopHadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序,充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng),其中一個(gè)組件是Hadoop分布式文件系統(tǒng)(HDFS)。HDFS有高容錯(cuò)性的特點(diǎn),并部署在低廉的硬件上;它提供高吞吐量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。Hadoop的框架最核心的設(shè)計(jì)就是HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),而MapReduce為海量的數(shù)據(jù)提供了計(jì)算。37起源Hadoop起源于ApacheNutch項(xiàng)目,始于2002年,是ApacheLucene的子項(xiàng)目之一。2004年,谷歌在“操作系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)”會(huì)議上公開發(fā)表了題為《MapReduce:簡(jiǎn)化大集群上的數(shù)據(jù)處理》的論文之后,受到啟發(fā)的道格·卡丁等人開始嘗試實(shí)現(xiàn)MapReduce計(jì)算框架,并將它與基于Nutch的分布式文件系統(tǒng)(NutchDistributedFileSystem,NDFS)結(jié)合,用于支持Nutch引擎的主要算法。因?yàn)镹DFS和MapReduce在Nutch引擎中有著良好的應(yīng)用,所以它們于2006年2月被分離出來(lái),成為一套完整而獨(dú)立的軟件,并被命名為Hadoop。到了2008年初,Hadoop已成為Apache的頂級(jí)項(xiàng)目,其包含眾多子項(xiàng)目,并被應(yīng)用到包括Yahoo在內(nèi)的很多互聯(lián)網(wǎng)公司。38優(yōu)點(diǎn)①高可靠性:Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。②高擴(kuò)展性:Hadoop是在可用的計(jì)算機(jī)集群間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集群可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的結(jié)點(diǎn)中。③高效性:Hadoop能夠在結(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)結(jié)點(diǎn)的動(dòng)態(tài)平衡,且其處理速度非???。④高容錯(cuò)性:Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并能夠自動(dòng)對(duì)失敗的任務(wù)進(jìn)行重新分配。⑤低成本:與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)及QlikView、YonghongZ-Suite等數(shù)據(jù)集市相比,Hadoop是開源的,項(xiàng)目的軟件成本因此會(huì)大大降低。39Hadoop核心框架
①高可靠性:Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。②高擴(kuò)展性:Hadoop是在可用的計(jì)算機(jī)集群間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集群可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的結(jié)點(diǎn)中。③高效性:Hadoop能夠在結(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)結(jié)點(diǎn)的動(dòng)態(tài)平衡,且其處理速度非??臁"芨呷蒎e(cuò)性:Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并能夠自動(dòng)對(duì)失敗的任務(wù)進(jìn)行重新分配。⑤低成本:與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)及QlikView、YonghongZ-Suite等數(shù)據(jù)集市相比,Hadoop是開源的,項(xiàng)目的軟件成本因此會(huì)大大降低。40Hadoop核心框架
41HDFS寫入數(shù)據(jù)流程
42HDFS讀出數(shù)據(jù)流程
43Linux集群44Hadoop發(fā)展現(xiàn)狀45Hadoop設(shè)計(jì)之初的目標(biāo)定位于高可靠性、高可擴(kuò)展性、高容錯(cuò)性和高效性,正是這些設(shè)計(jì)上與生俱來(lái)的優(yōu)點(diǎn)才使得Hadoop一出現(xiàn)就受到眾多大公司的青睞,同時(shí)引起了研究界的普遍關(guān)注。Hadoop技術(shù)在互聯(lián)網(wǎng)領(lǐng)域已經(jīng)得到了廣泛運(yùn)用,例如,Yahoo使用4000個(gè)結(jié)點(diǎn)的Hadoop集群來(lái)支持廣告系統(tǒng)和Web搜索的研究;Facebook使用1000個(gè)結(jié)點(diǎn)的集群運(yùn)行Hadoop,用于存儲(chǔ)日志數(shù)據(jù),并支持其上的數(shù)據(jù)分析和機(jī)器學(xué)習(xí);百度使用Hadoop處理每周200TB的數(shù)據(jù),從而進(jìn)行搜索日志分析和網(wǎng)頁(yè)數(shù)據(jù)挖掘工作;4.2.4Spark46ApacheSpark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎。Spark是加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室開源的類HadoopMapReduce的通用并行框架。Spark擁有MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是——任務(wù)中間的輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。Spark概述47Spark是一種快速、通用、可擴(kuò)展的大數(shù)據(jù)分析引擎,2009年誕生于加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室,2010年開源,2013年6月成為Apache孵化項(xiàng)目,2014年2月成為Apache頂級(jí)項(xiàng)目。目前,Spark生態(tài)系統(tǒng)已經(jīng)發(fā)展成為一個(gè)包含多個(gè)子項(xiàng)目的集合,其中包含Spark結(jié)構(gòu)化查詢模式(SparkSQL)、Spark實(shí)時(shí)計(jì)算模式(SparkStreaming)、圖計(jì)算模式(GraphX)、機(jī)器學(xué)習(xí)庫(kù)(MLlib)等子項(xiàng)目。Spark基于內(nèi)存計(jì)算,提高了大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實(shí)時(shí)性,同時(shí)保證了高容錯(cuò)性和高可伸縮性,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)生英語(yǔ)匯報(bào)課件下載
- 2025年黑龍江省龍東地區(qū)中考化學(xué)真題【含答案、解析】
- 43 選擇性必修1 第七單元 第35講 免疫調(diào)節(jié)
- 麋鹿的教學(xué)課件
- 餐飲業(yè)服務(wù)員試用期合同范本
- 風(fēng)險(xiǎn)投資企業(yè)財(cái)務(wù)估值與盡職調(diào)查合同
- 單雙腳跳教學(xué)課件
- 養(yǎng)老金融信用數(shù)據(jù)質(zhì)量評(píng)估與改進(jìn)措施研究考核試卷
- 財(cái)務(wù)分析在網(wǎng)絡(luò)安全投資中的應(yīng)用考核試卷
- 紡織品產(chǎn)業(yè)綠色轉(zhuǎn)型路徑研究考核試卷
- 2024年國(guó)開電大 高級(jí)財(cái)務(wù)會(huì)計(jì) 形考任務(wù)4答案
- 道路工程石材檢測(cè)報(bào)告及石材單軸抗壓強(qiáng)度檢測(cè)原始記錄
- 2024年廣東省惠州一中學(xué)英語(yǔ)七下期末達(dá)標(biāo)檢測(cè)試題含答案
- 2019大學(xué)學(xué)術(shù)規(guī)范測(cè)試題庫(kù)500題(含標(biāo)準(zhǔn)答案)
- AQ 1071-2009 煤礦用非金屬瓦斯輸送管材安全技術(shù)要求(正式版)
- 上海延安初級(jí)中學(xué)新初一均衡分班語(yǔ)文試卷含答案
- 化工生產(chǎn)仿真綜合實(shí)訓(xùn)報(bào)告
- 中華民族共同體概論課件專家版8第八講 共奉中國(guó)與中華民族聚力發(fā)展
- 24春國(guó)家開放大學(xué)《農(nóng)業(yè)推廣》形考任務(wù)1-5參考答案
- 經(jīng)食道超聲心動(dòng)圖課件
- 2023年南京信息職業(yè)技術(shù)學(xué)院招聘考試真題
評(píng)論
0/150
提交評(píng)論