




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
云計算技術與大數(shù)據(jù)處理技術1972025/4/29云計算技術與大數(shù)據(jù)處理技術197主要內(nèi)容第一部分:云計算與大數(shù)據(jù)技術簡介簡要介紹云計算和大數(shù)據(jù)技術的發(fā)展背景、主要技術特點、現(xiàn)狀與趨勢第二部分:大數(shù)據(jù)研究涉及的層面和主要研究內(nèi)容主要介紹大數(shù)據(jù)研究所涉及的各個層面以及各層面下的主要研究內(nèi)容和熱點問題第三部分:大數(shù)據(jù)并行處理技術研究簡要介紹在大數(shù)據(jù)方面所開展的一些工作云計算技術與大數(shù)據(jù)處理技術197第一部分
云計算與大數(shù)據(jù)技術簡介云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的背景從計算模式的演變看計算技術發(fā)展的趨勢計算技術發(fā)展的歷史就是不同層面上計算模式發(fā)展和演變的歷史;而相關支撐技術的成熟為計算模式的演變和實現(xiàn)提供了基礎和條件計算模式的演進過程是受到一定的發(fā)展規(guī)律支配的,存在一定的必然性云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的背景從計算模式的演變看計算技術發(fā)展的趨勢計算模式變革的兩大根本目標:更方便快捷的使用方式更強大的計算能力在提供更強大計算能力的同時,提供更加方便快捷的使用方式,是貫穿整個計算技術發(fā)展的主線云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的背景
集中分散集中60-70’s:大型機(mainframe),
集中式、分時共享80-90’s:個人計算機人手一臺95-06:互聯(lián)網(wǎng)/網(wǎng)格/集群/數(shù)據(jù)中心“天下大勢,合久必分,分久必合”“否定之否定,螺旋式上升”從計算模式的演變看計算技術發(fā)展的趨勢云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的背景60-70’s:大型機(mainframe),
集中式、分時共享IBM創(chuàng)始人托馬斯·沃森(ThomasJ.Watson):
“我認為全球大概只需要五臺計算機就夠了?!?0年代,比爾蓋茨讀中學時需要以每小時40美金的費用租用大型機終端做程序設計。從計算模式的演變看計算技術發(fā)展的趨勢云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的背景80-90’s:個人計算機(PC)人手一臺因此,比爾蓋茨產(chǎn)生了一個偉大的夢想:“讓每一張桌子上有一臺電腦!”這個夢想成就了微軟,推動了個人計算時代的來臨。比爾蓋茨,1981年表示:“640KB內(nèi)存應該對任何人都夠用了?!?980年微軟開發(fā)DOS時曾認為:“DOS只能管理1MB的空間,因為我們無法想象還有什么應用軟件會需要更多的內(nèi)存?!睆挠嬎隳J降难葑兛从嬎慵夹g發(fā)展的趨勢云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的背景95-06:互聯(lián)網(wǎng)/網(wǎng)格/集群/數(shù)據(jù)中心分離的PC需要互連以交換信息共享資源
互聯(lián)網(wǎng)連接更多的計算資源以解決大的計算問題
網(wǎng)格計算用很多微處理器構(gòu)建具有大型機處理能力的系統(tǒng)集群很多的集群存儲處理大量的信息數(shù)據(jù)中心Yahoo,Amazon,Google……從計算模式的演變看計算技術發(fā)展的趨勢云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的背景2006年至今“更分散同時也更集中”前端更加分散:2006年后,一方面前端更加分散,以智能手機和IPad為代表的智能移動終端,推動移動計算技術發(fā)展“PC太大了,每個人口袋里應該放一臺!”傳感網(wǎng)絡、普適計算、物聯(lián)網(wǎng)概念和技術“每一粒沙子都應該是一臺計算機!”從計算模式的演變看計算技術發(fā)展的趨勢移動計算和物聯(lián)網(wǎng)云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的背景2006年至今“更分散同時也更集中”后端更加集中:另一方面,后端更加集中,出現(xiàn)云計算概念和技術,讓計算成為像水電一樣的公共服務,便于資源共享,以及提供超大的計算能力從計算模式的演變看計算技術發(fā)展的趨勢云計算云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的背景從計算模式的演變看計算技術發(fā)展的趨勢從信息處理及其模式看物聯(lián)網(wǎng)的發(fā)展信息是物理世界中對象和事物狀態(tài)屬性的抽象和表示信息處理是借助于計算機對信息進行加工處理的過程信息處理完成后將反作用于物理世界中的對象和事物計算機物理世界信息云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的背景從計算模式的演變看計算技術發(fā)展的趨勢從信息處理及其模式看物聯(lián)網(wǎng)的發(fā)展按照從物理對象獲取和反饋信息的方式和對象與計算系統(tǒng)之間的耦合度,信息處理可分為4種模式:
早期計算模式主要是離線獲取、離線反饋的松耦合模式,信息處理和使用的效率不高
離線獲取在線反饋云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的背景從計算模式的演變看計算技術發(fā)展的趨勢從信息處理及其模式看物聯(lián)網(wǎng)的發(fā)展而現(xiàn)在越來越強調(diào)對物理對象信息處理的普遍性、時效性和方便性,因此越來越需要在線獲取和在線反饋的緊耦合模式,這就產(chǎn)生“物聯(lián)網(wǎng)”的概念和計算模式人作為物理世界中一類特殊對象、以及控制和使用計算系統(tǒng)的主體,如果我們綜合考慮人、計算系統(tǒng)和物理世界對象三者間的交互作用,這就產(chǎn)生“人機物系統(tǒng)”的概念和計算模式
云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的背景從計算模式的演變看計算技術發(fā)展的趨勢云計算與物聯(lián)網(wǎng)物聯(lián)網(wǎng)是前端計算能力向物理世界的前伸,使得計算系統(tǒng)與物理世界對象深度融合,獲取信息更加快速和多樣,信息量迅猛增長云計算則是計算系統(tǒng)后端處理能力的拓展,為快速有效處理大量物理世界的信息提供有效的計算手段和計算能力兩者將相互結(jié)合,推動新的計算模式和計算技術發(fā)展云計算技術與大數(shù)據(jù)處理技術197什么是云計算?CloudComputing,UtilityComputing,ServiceComputing……通過集中式遠程計算資源池,以按需分配方式,為終端用戶提供強大而廉價的計算服務能力工業(yè)化部署、商業(yè)化運作的大規(guī)模計算能力一種新的、可商業(yè)化的計算和服務模式計算能力像水電煤氣一樣,按需分配使用資源池物理上對用戶透明就像在云端一樣云計算技術與大數(shù)據(jù)處理技術197云計算概念的由來“Thecomputationandthedataandsoforthareintheservers.…Wecallitcloudcomputing.”(ErickSchmidt,2006)“computationmaysomedaybeorganizedasapublicutility”(JohnMcCarthy,1960)“云計算”的概念在2006年由Google公司正式提出但最初的思想雛形可追溯到更早的時間云計算技術與大數(shù)據(jù)處理技術197云計算的發(fā)展目標
云計算的一個重要目標是,把計算能力變成像水電等公用服務一樣,隨用隨取,按需使用。故此也有人把云計算稱為“UtilityComputing”這里Utility不是效用、實用的意思,在英文里Utility有一個專門的含義,專指類似于水電煤氣的公用服務,故UtilityComputing應譯為“公用服務計算”云計算技術與大數(shù)據(jù)處理技術197云計算的主要特點透明的云端計算服務“無限”多的計算資源,提供強大的計算能力按需分配,彈性伸縮,取用方便,成本低廉資源共享,降低企業(yè)IT基礎設施建設維護費用應用部署快速而容易軟件/應用功能更新方便快捷節(jié)省能源,綠色環(huán)保集計算技術之大成,具有很強的技術性、工程型特點云計算技術與大數(shù)據(jù)處理技術197云計算的分類按云計算服務層面進行分類SaaS:SoftwareasaService提供各種應用軟件服務PaaS:PlatformasaService提供軟件支撐平臺服務IaaS:InfrastructureasaService提供接近于裸機(物理機或虛擬機)的計算資源和基礎設施服務云計算技術與大數(shù)據(jù)處理技術197云計算硬件平臺云計算的分類云計算軟件支撐平臺云計算應用服務軟件SaaS如騰訊云詞典PaaS如GoogleAppEngIaaS如AmazonEC2云計算應用按云計算服務層面進行分類云計算技術與大數(shù)據(jù)處理技術197云計算的分類按云計算系統(tǒng)類型進行分類美國聯(lián)邦云計算戰(zhàn)略報告中,定義了4中云:公用云:提供面向社會大眾、公共群體的云計算服務如Amazon云平臺,GoogleAppEng
公有云有很多優(yōu)點,但最大的一個缺點是難以保證數(shù)據(jù)的私密性私有云:提供面向應用行業(yè)/組織內(nèi)的云計算服務如政府機關、移動通信、學校等內(nèi)部使用的云平臺
私有云可較好地解決數(shù)據(jù)私密性問題,對移動通信、公安等數(shù)據(jù)私密性要求特別高的企業(yè)或機構(gòu),建設私有云將是一個必然的選擇云計算技術與大數(shù)據(jù)處理技術197云計算的分類按云計算系統(tǒng)類型進行分類社區(qū)云:提供面向社團組織內(nèi)用戶使用的云計算平臺
如美國航天局(NASA)Nebula云平臺為NASA內(nèi)的研究人員提供快速的IT訪問服務混合云:包含以上2種以上云計算類型的混合式云平臺云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的推動力應用需求推動力大粒度應用系統(tǒng)日益增多,系統(tǒng)規(guī)模日益擴大應用系統(tǒng)數(shù)據(jù)量爆炸性增長中國移動全國每天的電話短信通聯(lián)記錄數(shù)據(jù)達到500TB;而中國移動一個流量最大的省每天的通聯(lián)記錄數(shù)據(jù)可達到65TB阿里巴巴電子商務平臺日處理數(shù)據(jù)量將達到500TB,目前淘寶交易總數(shù)據(jù)量已經(jīng)達到1500PB百度存儲100-1000PB數(shù)據(jù),每日處理10-100PB;存儲1千-1萬億網(wǎng)頁,索引100-1000億網(wǎng)頁僅2011年,全世界產(chǎn)生1.8ZB(1.8萬億GB)數(shù)據(jù),相當于每位美國人每分鐘寫3條Twitter,不停地寫2.7萬年YouTube每分鐘有13h視頻上傳,每天數(shù)據(jù)10TB相當于好萊塢每周發(fā)行57000部電影
云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的推動力應用需求推動力大粒度應用系統(tǒng)日益增多,系統(tǒng)規(guī)模日益擴大超大的計算量和計算復雜度用SGI工作站進行電影渲染時,每幀一般需要1~2小時一部2小時的電影渲染需要:
2小時x3600秒x24幀x(1~2小時)/24小時=20~40年!特殊場景每幀可能需要60個小時(影片“星艦騎兵”中數(shù)千只蜘蛛爬行的場面),用橫向4096象素分辨率進行渲染時,如果以每幀60個小時的速度,則1秒的放映量(24幀)需要60天的渲染時間,1分鐘則需要100年!云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的推動力應用需求推動力小粒度應用系統(tǒng)資源重復、無法共享
企業(yè)內(nèi)大量的小粒度應用系統(tǒng)需要添置獨立的硬件資源,但不同應用系統(tǒng)忙閑不均,忙時資源不夠,閑時資源空置,資源無法相互調(diào)配和共享,造成資源和資金浪費
淘寶網(wǎng)案例:后臺設置約15萬臺服務器,服務于不同的應用系統(tǒng);而不同應用系統(tǒng)的負載不同,忙閑不均;據(jù)淘寶測算,如能在不同應用間合理調(diào)配計算資源,大約可省去2/3約10萬臺服務器,以每臺3萬元計算,可節(jié)省約30億元!云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的推動力技術發(fā)展推動力云計算是諸多計算技術發(fā)展成熟與自然進化的產(chǎn)物計算機虛擬化技術、大規(guī)模并行計算、分布式存儲、面向服務構(gòu)架、公用服務計算等諸多技術廣泛應用計算機系統(tǒng)規(guī)模和處理能力迅速擴大技術發(fā)展成熟與自然進化的結(jié)果云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的重要性
“從美國來講,云計算已經(jīng)是無可爭議的主流……,美國整個信息工業(yè)都是以云計算為主流往前推動的。云計算對整個信息技術和整個社會將帶來非常非常大的影響?!?/p>
微軟全球副總裁陸奇,2012年10月29日,“中國云·移動互聯(lián)網(wǎng)創(chuàng)新大獎賽決賽頒獎典禮暨創(chuàng)新創(chuàng)業(yè)論壇”主題報告云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的重要性
“是什么樣的推動力產(chǎn)生云計算?什么樣的大浪潮可以把云計算繼續(xù)往前推動?我個人的體會,就是計算模式……。一種計算模式,真正有強大生命力的話,是必須要產(chǎn)生強大的社會經(jīng)濟價值,市場價值,同時對社會造成公益?!?/p>
微軟全球副總裁陸奇,2012年10月29日,“中國云·移動互聯(lián)網(wǎng)創(chuàng)新大獎賽決賽頒獎典禮暨創(chuàng)新創(chuàng)業(yè)論壇”主題報告云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的重要性2011年2月8日美國奧巴馬總統(tǒng)簽署了聯(lián)邦云計算戰(zhàn)略報告,制定該報告的目的:TheFederalGovernment’scurrentInformationTechnology(IT)environmentischaracterizedbylowassetutilization,afragmenteddemandforresources,duplicativesystems,environmentswhicharedifficulttomanage,andlongprocurementleadtimes.TheseinefficienciesnegativelyimpacttheFederalGovernment’sabilitytoservetheAmericanpublic.Cloudcomputinghasthepotentialtoplayamajorpartinaddressingtheseinefficienciesandimprovinggovernmentservicedelivery.Thecloudcomputingmodelcansignificantlyhelpagenciesgrapplingwiththeneedtoprovidehighlyreliable,innovativeservicesquicklydespiteresourceconstraints.美國聯(lián)邦政府部門計劃用全部的800億美元IT預算中的200億作為云計算平臺開發(fā)建設的費用。美國聯(lián)邦云計算戰(zhàn)略報告,2011/2/8云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展的重要性美國聯(lián)邦云計算戰(zhàn)略報告認為:CloudisafundamentalshiftinITCloudcomputingenablesITsystemstobescalableandelastic.Endusersdonotneedtodeterminetheirexactcomputingresourcerequirementsupfront.Instead,theyprovisioncomputingresourcesasrequired,on-demand.Usingcloudcomputingservices,aFederalagencydoesnotneedtoowndatacenterinfrastructuretolaunchacapabilitythatservesmillionsofusersCloudcomputingcansignificantlyimprovepublicsectorITAnumberofgovernmentagenciesareadoptingcloudtechnologiesandarerealizingconsiderablebenefits.Forinstance,NASANebula,throughacommunitycloud,givesresearchersaccesstoITservicesrelativelyinexpensivelyinminutes.Priortoadoptingthisapproach,itwouldtakeresearchersmonthstoprocureandconfigurecomparableITresourcesandsignificantmanagementoversighttomonitorandupgradesystems.ApplyingcloudtechnologiesacrosstheentireFederalGovernmentcanyieldtremendousbenefitsinefficiency,agility,andinnovation.云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展現(xiàn)狀與趨勢業(yè)界云計算技術的發(fā)展自2006年Google公司提出云計算技術的概念后,全球IT著名企業(yè)紛紛予以極大關注,并投入了巨大力量進行云計算技術的研究開發(fā)。云計算技術與大數(shù)據(jù)處理技術197GoogleCloudInfrastructureSchedulerChubbyGFSmasterNodeNodeNode…UserGoogleAppEngineSchedulerslaveGFSLinuxNodeMapReduceFrameworkBigTableServerGoogleCloudInfrastructure
(GoogleAppEngine,PaaS型公用云平臺)GoogleAppEngine提供了一種PaaS類型的云計算服務平臺,用戶可租用該平臺的計算資源,并使用AppEngine提供的各種應用開發(fā)和支撐軟件平臺開發(fā)和部署自己的應用軟件云計算技術與大數(shù)據(jù)處理技術197S3EBSEC2EBSEC2EBSEC2EBSEC2SimpleDBSQSUserDeveloperAmazonElasticComputingCloud
(AmazonEC2,IaaS型公用云平臺)SQS:SimpleQueueServiceEC2:RunningInstanceofVirtualMachinesEBS:ElasticBlockService,ProvidingtheBlockInterface,StoringVirtualMachineImagesS3:SimpleStorageService,SOAP,ObjectInterfaceSimpleDB:SimplifiedDatabaseAmazonEC2提供了一種IaaS類型的云計算服務平臺,在該平臺上用戶可部署自己的系統(tǒng)軟件,完成應用軟件的開發(fā)和發(fā)布。云計算技術與大數(shù)據(jù)處理技術197租用案例12007年,美國紐約時報租用Amazon云計算平臺,用于將1851-1922年紐約時報的1100萬篇報刊文章轉(zhuǎn)換為PDF文件,供讀者上網(wǎng)免費訪問。共租用了100個EC2節(jié)點,運行了24小時,處理了4TB的報刊原始掃描圖像,生成了1.5TB的PDF文件。每節(jié)點每小時費用為10美分,整個計算任務僅花費了240美元(100節(jié)點x24小時x$0.10)!如果用自己的服務器,將需要數(shù)月和多得多的費用!
AmazonElasticComputingCloud云計算技術與大數(shù)據(jù)處理技術197租用案例2SmugMug(數(shù)億張照片,幾十萬付費用戶,僅50人)是一個在線照片存儲公司,初期和傳統(tǒng)公司一樣,建立了自己的數(shù)據(jù)中心,并通過不斷添置新的IT設備以適應業(yè)務量增長,但是很快發(fā)現(xiàn)業(yè)務量增長速度大大超過了設備添加的速度。作為一家未完全盈利的新型公司,顯然難以長期承受巨額的基礎設施開銷。最后公司選擇使用Amazon的S3服務,結(jié)合公司實際情況,將最熱門的部分照片存儲在公司自己的服務器中,剩下的絕大部分照片則轉(zhuǎn)移到S3服務器中,由Amazon來提供照片的安全存儲。它把超過0.5PB的數(shù)據(jù)存儲在Amazon的S3云存儲中,由此節(jié)約的服務和存儲成本接近100萬美元。AmazonElasticComputingCloud2025/4/29云計算技術與大數(shù)據(jù)處理技術197AmazonElasticComputingCloud租用案例3Animoto公司為注冊用戶提供通過網(wǎng)站進行圖片和音樂上傳、在線視頻制作和分享等服務。開始選擇了一家web托管服務提供商來完成數(shù)據(jù)處理和信息存儲。2008年年初網(wǎng)站每天用戶數(shù)約為5000人,但到4月中旬,由于Facebook用戶開始使用Animoto服務,該網(wǎng)站在三天內(nèi)的用戶數(shù)大幅上升至75萬人,所要求的服務器能力需要大約提高100倍,但該網(wǎng)站既無資金有無能力來建立規(guī)模如此巨大的計算能力,因此,該網(wǎng)站與云計算服務公司RightScale合作,設計了能夠在Amazon云中使用的應用程序。這樣,使得該網(wǎng)站大大提高了計算能力,而費用僅每小時每臺服務器10美分。它使用AmazonEC2快速擴展處理能力,使用3500個同時運行的虛擬實例,成功渡過了一次Web通信高峰期可能帶來的系統(tǒng)癱瘓。2025/4/29云計算技術與大數(shù)據(jù)處理技術197MicrosoftCloudServices
(WindowAzure,私有云平臺管理和服務軟件)
Azure?ServicesPlatformMicrosoftSharePointServicesMicrosoftDynamicsCRMServices云計算技術與大數(shù)據(jù)處理技術197IBM云計算方案
(私有云計算平臺管理和服務軟件)提供私有云計算資源管理軟件平臺,主要負責管理和調(diào)度虛擬計算資源,完成資源申請、調(diào)度和管理等整個生命周期管理云計算技術與大數(shù)據(jù)處理技術197其它國內(nèi)外IT企業(yè)云計算研發(fā)
除以上幾家全球著名的IT企業(yè)外,其它著名IT企業(yè)如Cisco、HP、EMC、VMWare等,都在大力推進云計算技術和系統(tǒng)研發(fā)。國內(nèi)各大著名IT企業(yè),如中國移動、中國電信、中國聯(lián)通、阿里巴巴、騰訊、百度、萬網(wǎng)等,都在大力推動云計算技術和系統(tǒng)研發(fā)。尤其是著名的網(wǎng)絡設備制造商中興通信和華為,正在開始從傳統(tǒng)的網(wǎng)絡電信設備制造向計算技術領域轉(zhuǎn)移,他們把云計算作為實現(xiàn)重大戰(zhàn)略轉(zhuǎn)移的一個重大契機云計算發(fā)展現(xiàn)狀與趨勢云計算技術與大數(shù)據(jù)處理技術197中國移動BigCloud云計算發(fā)展現(xiàn)狀目標是建立可為中國移動企業(yè)內(nèi)部進行海量通信數(shù)據(jù)存儲和處理的使用的私有云平臺,以及為社會大眾和群體使用的公有云平臺。云計算技術與大數(shù)據(jù)處理技術197阿里巴巴“飛天”云計算平臺已經(jīng)有超過2萬個上線租用企業(yè)用戶云計算技術與大數(shù)據(jù)處理技術197中興通信云計算技術與大數(shù)據(jù)處理技術197中興通信云計算技術與大數(shù)據(jù)處理技術197云計算發(fā)展現(xiàn)狀與趨勢云計算發(fā)展趨勢云計算將提供一種新的計算模式和服務模式。云計算將是計算技術的一次重大變革,作為今后計算發(fā)展的潮流將大大改變現(xiàn)有的計算模式,對計算技術領域本身以及各個應用行業(yè)都將帶來重大的影響,提供更多的發(fā)展機遇
通過云計算人們能獲得前所未有的強大計算能力,并能按需分配,按需付費,提升了本地計算能力但使用成本低廉,而且還能大幅削減不斷升級軟硬件系統(tǒng)的費用通過云計算平臺強大的計算和存儲能力,人們將能完成傳統(tǒng)系統(tǒng)所無法完成的計算和處理,開發(fā)出更強大的應用功能,提供更多智能化應用云計算技術與大數(shù)據(jù)處理技術197云計算解決什么主要問題?集中管理的計算資源池基于資源共享的小粒度應用基于大規(guī)模計算資源的大粒度應用基于資源共享的小粒度應用基于資源共享的小粒度應用基于資源共享的小粒度應用基于資源共享的小粒度應用用一個集中管理的巨大的計算資源池,提供巨大的計算資源和能力1)為小粒度應用提供資源共享;2)為大粒度應用提供大規(guī)模計算能力基于云計算的共享應用與服務云計算技術與大數(shù)據(jù)處理技術197云計算系統(tǒng)的組成物理存儲計算資源池虛擬化彈性資源調(diào)度管理虛擬資源池小粒度應用與服務分布式存儲并行計算框架查詢分析挖掘并行算法云安全管理云計算管理大數(shù)據(jù)應用與服務云計算應用與服務云計算技術與大數(shù)據(jù)處理技術197云計算的關鍵技術云計算技術與大數(shù)據(jù)處理技術197云計算的關鍵技術主要包括以下關鍵技術虛擬化技術:虛擬機的安裝、設置、調(diào)度分配、使用、故障檢測與失效恢復等云計算構(gòu)架技術:研究解決適合于云計算的系統(tǒng)軟硬件構(gòu)架資源調(diào)度技術:解決物理或虛擬計算資源的自動化分配、調(diào)度、配置、使用、負載均衡、回收等資源管理并行計算技術:針對大數(shù)據(jù)或復雜計算應用,解決數(shù)據(jù)或計算任務切分和并行計算算法設計問題云計算技術與大數(shù)據(jù)處理技術197云計算的關鍵技術主要包括以下關鍵技術大數(shù)據(jù)存儲技術:解決大數(shù)據(jù)的分布存儲、共享訪問、數(shù)據(jù)備份等問題云安全技術:解決云計算系統(tǒng)的訪問安全性、數(shù)據(jù)安全性(包括數(shù)據(jù)私密性)等問題云計算應用:面向各個行業(yè)的、不同形式的云計算應用技術和系統(tǒng)此外,還有云計算中心的節(jié)能和散熱等工程技術問題云計算技術與大數(shù)據(jù)處理技術197云計算的關鍵技術怎樣才算是云計算系統(tǒng)?個人認為:一個計算系統(tǒng)必須具備以下兩個特征才能算是云計算系統(tǒng)(至少具備第一個特征):資源虛擬化和彈性調(diào)度解決小粒度應用資源共享
基于虛擬化和彈性調(diào)度,以按需分配方式,為小粒度應用提供計算資源,實現(xiàn)資源共享大數(shù)據(jù)存儲處理和并行計算服務提供大粒度應用計算能力
基于云端的強大而廉價的計算能力,為大粒度應用提供傳統(tǒng)計算系統(tǒng)或用戶終端所無法完成的計算服務。這些計算能力包括海量數(shù)據(jù)存儲能力、以及大規(guī)模并行計算能力。云計算技術與大數(shù)據(jù)處理技術197Wiki百科:bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtools
大數(shù)據(jù)意指一個超大的、難以用現(xiàn)有常規(guī)的數(shù)據(jù)庫管理技術和工具處理的數(shù)據(jù)集IDC報告:Bigdatatechnologiesdescribeanewgenerationoftechnologiesandarchitectures,designedtoeconomicallyextractvaluefromverylargevolumesofawidevarietyofdata,byenablinghigh-velocitycapture,discovery,and/oranalysis.
大數(shù)據(jù)技術描述了一種新一代技術和構(gòu)架,用于以很經(jīng)濟的方式、以高速的捕獲、發(fā)現(xiàn)和分析技術,從各種超大規(guī)模的數(shù)據(jù)中提取價值什么是大數(shù)據(jù)?云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)處理技術的重要性大數(shù)據(jù)(BigData)應用需求
出現(xiàn)越來越多的大數(shù)據(jù)應用和行業(yè)需求。2008年,在Google成立10周年之際,《Nature》雜志出版一期??瘜iT討論未來的大數(shù)據(jù)(BigData)處理相關的一系列技術問題和挑戰(zhàn)。云計算技術與大數(shù)據(jù)處理技術197未來10多年數(shù)據(jù)將急劇增長IDC研究報告《DataUniverseStudy》提出“數(shù)據(jù)宇宙”的說法描述海量數(shù)據(jù)2007年2008年2009年2010年2011年大數(shù)據(jù)處理技術的重要性云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)處理技術的重要性未來急劇增長的數(shù)據(jù)迫切需要尋求新的處理技術手段IDC報告《DataUniverseStudy》全世界權威IT咨詢公司研究報告預測:全世界數(shù)據(jù)量未來10年將從2009年的0.8ZB增長到2020年的35ZB,增長44倍!年均增長率>40%!0.8ZB:一堆DVD堆起來夠地球到月亮一個來回35ZB:一堆DVD堆起來是地球到火星距離的一半云計算技術與大數(shù)據(jù)處理技術197美國聯(lián)邦政府發(fā)布大數(shù)據(jù)研發(fā)專項研究計劃美國聯(lián)邦政府下屬的國防部、能源部、衛(wèi)生總署等7部委聯(lián)合推動,于2012年3月底發(fā)布了大數(shù)據(jù)研發(fā)專項研究計劃(BigDataInitiative),擬投入2億美元用于研究開發(fā)科學探索、環(huán)境和生物醫(yī)學、教育和國家安全等重大領域和行業(yè)所急需的大數(shù)據(jù)處理技術和工具,把大數(shù)據(jù)研究上升到為國家發(fā)展戰(zhàn)略。大數(shù)據(jù)處理技術的重要性56云計算技術與大數(shù)據(jù)處理技術197“大數(shù)據(jù)研究的科學價值”李國杰,《中國計算機學會通訊》,vol.8,no.9,2012.92012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署。美國政府認為大數(shù)據(jù)是“未來的新石油”,將“大數(shù)據(jù)研究”上升為國家意志,對未來的科技與經(jīng)濟發(fā)展必將帶來深遠影響。一個國家擁有數(shù)據(jù)的規(guī)模和運用數(shù)據(jù)的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有和控制也將成為國家間和企業(yè)間新的爭奪焦點。大數(shù)據(jù)處理技術的重要性57云計算技術與大數(shù)據(jù)處理技術197數(shù)據(jù)科學(DataScience)
國內(nèi)外出現(xiàn)了“數(shù)據(jù)科學”的概念圖靈獎獲得者JimGray:2007年最后一次演講中提出“數(shù)據(jù)密集型科學發(fā)現(xiàn)(Data-IntensiveScientificDiscovery)”將成為科學研究的第四范式實驗科學理論科學計算科學數(shù)據(jù)科學世界著名存儲技術公司EMC提出了“DataScience”的概念,“DataScienceteamswillbecomethedrivingforceforsuccesswithbigdataanalytics”李國杰院士:“數(shù)據(jù)科學”研究的對象是什么?計算機科學是關于算法的科學,數(shù)據(jù)科學是關于數(shù)據(jù)的科學。大數(shù)據(jù)處理技術的重要性58云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)將帶來巨大的技術和商業(yè)機遇
大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來巨大的商業(yè)價值原始信息行業(yè)數(shù)據(jù)知識報表制圖電子文檔信息檢索數(shù)據(jù)倉庫海量分析知識挖掘信息化技術大數(shù)據(jù)分析PC時代互聯(lián)網(wǎng)時代大數(shù)據(jù)時代大數(shù)據(jù)處理技術的重要性云計算技術與大數(shù)據(jù)處理技術197應用數(shù)據(jù)規(guī)模急劇增加,傳統(tǒng)計算計算面臨嚴重挑戰(zhàn)中國移動江蘇省電話通聯(lián)記錄(CDR)數(shù)據(jù)每月達0.5-1PB,而整個中國移動每月則高達7-15PB數(shù)據(jù);如此巨大的數(shù)據(jù)量使得Oracle等數(shù)據(jù)庫系統(tǒng)已經(jīng)難以支撐和應對南京市公安局320道路監(jiān)控云計算系統(tǒng),數(shù)據(jù)量為三年200億條、總量120TB的車輛監(jiān)控數(shù)據(jù)中國深圳華大基因研究所成為全世界最大測序中心,每天產(chǎn)生300GB基因序列數(shù)據(jù)(每年100TB)百度存儲數(shù)百PB數(shù)據(jù),每天處理數(shù)據(jù)10PB淘寶存儲14PB交易數(shù)據(jù),每天新增數(shù)據(jù)40-50TB大數(shù)據(jù)處理技術發(fā)展的驅(qū)動力60云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)處理技術發(fā)展的驅(qū)動力大規(guī)模數(shù)據(jù)處理和行業(yè)應用需求日益增加和迫切出現(xiàn)越來越多的大規(guī)模數(shù)據(jù)處理應用需求,傳統(tǒng)系統(tǒng)難以提供足夠的存儲和計算資源進行處理,云計算平臺是最理想的解決方案。調(diào)查顯示:目前,IT專業(yè)人員對云計算中諸多關鍵技術最為關心的是大規(guī)模數(shù)據(jù)并行處理技術大數(shù)據(jù)并行處理沒有通用和現(xiàn)成的解決方案對于應用行業(yè)來說,云計算平臺軟件、虛擬化軟件都不需要自己開發(fā),但行業(yè)的大規(guī)模數(shù)據(jù)處理應用沒有現(xiàn)成和通用的軟件,需要針對特定的應用需求專門開發(fā),涉及到諸多并行化算法、索引查詢優(yōu)化技術研究、以及系統(tǒng)的設計實現(xiàn)云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)處理技術發(fā)展的驅(qū)動力現(xiàn)有數(shù)據(jù)處理能力大幅落后于數(shù)據(jù)增長速度
數(shù)據(jù)訪問能力大幅落后于數(shù)據(jù)增長速度磁盤容量增長遠遠快過存儲訪問帶寬和延遲:80年代中期數(shù)十MB到今天的TB量級,增長數(shù)十萬倍,而延遲僅提高2倍,帶寬僅提高50倍!100TB數(shù)據(jù)順序讀一遍需要多少時間?設硬盤讀取訪問速率128MB/秒1TB/128MB約2.17小時100TB/128MB=217小時=9天!即使用百萬元高速磁盤陣列(800MB/s),仍需1.5天!數(shù)據(jù)存儲能力大幅落后于數(shù)據(jù)增長速度云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)處理技術發(fā)展的驅(qū)動力海量數(shù)據(jù)隱含著更準確的事實
研究發(fā)現(xiàn):大數(shù)據(jù)量可顯著提高機器學習算法的準確性;訓練數(shù)據(jù)集越大,數(shù)據(jù)分類精度越高;大數(shù)據(jù)集上的簡單算法能比小數(shù)據(jù)集上的復雜算法產(chǎn)生更好的結(jié)果,因此數(shù)據(jù)量足夠大時有可能使用代價很小的簡單算法來達到很好的學習精度。例如,2001年,一個基于事實的簡短問答研究,如提問:WhoshotAbrahamLincoln?在很大的數(shù)據(jù)集時,只要使用簡單的模式匹配方法,找到在“shotAbrahamLincoln”前面的部分即可快速得到準確答案:JohnWilkesBooth云計算技術與大數(shù)據(jù)處理技術197結(jié)構(gòu)特征結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)獲取和處理方式動態(tài)(流式/增量式/線上)/實時數(shù)據(jù)靜態(tài)(線下數(shù)據(jù))/非實時數(shù)據(jù)關聯(lián)特征無關聯(lián)/簡單關聯(lián)數(shù)據(jù)(鍵值記錄型數(shù)據(jù))復雜關聯(lián)數(shù)據(jù)(圖數(shù)據(jù))大數(shù)據(jù)的類型云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)的基本特點海量數(shù)據(jù)及其特點(4個V):Volume:大容量,TB-ZBVariety:多樣性Velocity:時效性Veracity:準確性云計算技術與大數(shù)據(jù)處理技術197數(shù)據(jù)尺度和關聯(lián)度空間DataconnectednessDatasizeTypicalRDBMSSQLComfortZoneDisk-basedKey-valueStoreColumnStoreDocumentStoreGraphDB云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)問題的基本特點大數(shù)據(jù)來自應用行業(yè),具有極強的行業(yè)應用需求特性數(shù)據(jù)規(guī)模極大,達到PB甚至EB量級,超過任何傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的處理能力大數(shù)據(jù)處理給傳統(tǒng)計算技術帶來極大挑戰(zhàn),大多數(shù)傳統(tǒng)算法在面向大數(shù)據(jù)處理時都面臨問題,需要重寫大數(shù)據(jù)研究的基本原則應用需求為導向領域交叉為橋梁計算技術為支撐大數(shù)據(jù)問題的特點和研究原則云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)研究的挑戰(zhàn)數(shù)據(jù)規(guī)模導致難以應對的存儲和計算量數(shù)據(jù)規(guī)模導致傳統(tǒng)算法失效大數(shù)據(jù)復雜的數(shù)據(jù)關聯(lián)性導致高復雜度的計算大數(shù)據(jù)研究的基本途徑三個基本途徑:繼續(xù)尋找新算法降低計算復雜度降低大數(shù)據(jù)尺度,尋找數(shù)據(jù)尺度無關算法大數(shù)據(jù)并行化處理大數(shù)據(jù)研究的挑戰(zhàn)和基本途徑云計算技術與大數(shù)據(jù)處理技術197HadoopMapReduce是目前大數(shù)據(jù)處理的主流技術和平臺目前國際公認和廣為接受、最成功使用的大數(shù)據(jù)并行處理主流技術和平臺精巧的設計和強大的功能分而治之的并行處理思想高層并行編程模型自動化存儲計算軟件框架事實上的海量數(shù)據(jù)并行處理工業(yè)標準,國內(nèi)外各大著名IT企業(yè)都在廣泛使用,Google,Amazon,FaceBook,IBM,百度,淘寶,騰訊…主流大數(shù)據(jù)處理技術MapReduce69云計算技術與大數(shù)據(jù)處理技術197更多有關HadoopMapReduce的基本設計思想、技術特點和工作原理,請參見本PPT168頁開始的附錄。主流大數(shù)據(jù)處理技術MapReduce云計算技術與大數(shù)據(jù)處理技術197第二部分
大數(shù)據(jù)研究層面與主要研究內(nèi)容云計算技術與大數(shù)據(jù)處理技術197技術層面大數(shù)據(jù)行業(yè)應用/服務層應用開發(fā)層應用技術層智能化計算層并行編程模型與計算框架層數(shù)據(jù)存儲管理層并行構(gòu)架和計算平臺層集群,多核,GPU,混合式構(gòu)架(如集群+多核,集群+GPU)云計算服務支撐平臺大數(shù)據(jù)查詢(SQL,NoSQL,實時查詢,線下分析)大數(shù)據(jù)存儲(DFS,HBase,MemDB,RDB)大數(shù)據(jù)預處理MapReduce,BSP,MPI,CUDA,OpenMP,定制式,混合式(如MapReduce+CUDA,MapReduce+MPI)并行化機器學習與數(shù)據(jù)挖掘算法社會網(wǎng)絡,排名與推薦,商業(yè)智能,自然語言處理,生物信息媒體分析檢索,Web搜索與挖掘,3維建模與可視化…大數(shù)據(jù)研究層面和主要內(nèi)容電信/公安/商業(yè)/金融/遙感遙測/勘探/生物醫(yī)藥……領域應用/服務需求和計算模型行業(yè)應用系統(tǒng)開發(fā)角色行業(yè)用戶領域?qū)<覒瞄_發(fā)者計算技術研究和開發(fā)者云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)行業(yè)應用與服務層行業(yè)應用系統(tǒng)和服務行業(yè)應用系統(tǒng)電信、公安、商業(yè)、金融、遙感遙測、地質(zhì)勘探、生物醫(yī)藥……行業(yè)應用公共服務中間件領域應用/服務需求和計算模型領域應用問題和需求領域應用問題計算模型云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)行業(yè)應用開發(fā)層行業(yè)應用系統(tǒng)和服務大數(shù)據(jù)應用開發(fā)環(huán)境和工具大數(shù)據(jù)應用和服務集成框架和接口大數(shù)據(jù)應用測試環(huán)境和工具大數(shù)據(jù)應用發(fā)布和運行環(huán)境云計算技術與大數(shù)據(jù)處理技術197應用技術層研究內(nèi)容社會網(wǎng)絡排名與推薦系統(tǒng)商業(yè)智能媒體分析檢索Web挖掘與搜索3維建模與科學計算可視化生物信息自然語言處理……云計算技術與大數(shù)據(jù)處理技術197應用技術層研究內(nèi)容GoogleKnowledgeGraph
綜合應用案例基于搜索關鍵詞語義理解和信息關聯(lián)性的智能化搜索功能,可提供搜索對象相關的綜合性和多樣化信息(文字和媒體信息)。涉及到前述大多數(shù)應用技術的綜合性應用:一種深度搜索技術基于語義分析理解基于信息關聯(lián)網(wǎng)絡分析多樣化排名與推薦基于圖片內(nèi)容的搜索目前GoogleKnowledgeGraph已經(jīng)有五億個信息“對象”包括35億個屬性和相互關系;但目前只支持英文,不支持中文云計算技術與大數(shù)據(jù)處理技術197應用技術層研究內(nèi)容GoogleKnowledgeGraph
綜合應用案例云計算技術與大數(shù)據(jù)處理技術197應用技術層研究內(nèi)容社團發(fā)現(xiàn)(CommunityDetection)網(wǎng)絡建模(NetworkModeling)中心分析和影響力建模(CentralityAnalysisandInfluenceModeling)分類推薦(ClassificationandRecommendation)隱私安全等(Privacy,SpamandSecurity)社會網(wǎng)絡云計算技術與大數(shù)據(jù)處理技術197應用技術層研究內(nèi)容常規(guī)排名(Ranking)多樣性排名(DiversifiedRanking)基于內(nèi)容的推薦(Content-basedRecommendation)基于標簽的推薦(Tag-basedRecommendation)協(xié)同過濾推薦(CollaborativeFilteringRecommendation)排名與推薦系統(tǒng)云計算技術與大數(shù)據(jù)處理技術197應用技術層研究內(nèi)容大規(guī)模圖像檢索(ImageRetrieval)大規(guī)模圖像分類(ImageClassification)目標檢測(Object
Recognition)視頻異常行為檢測(Abnormal
Event
Detection)媒體分析檢索云計算技術與大數(shù)據(jù)處理技術197應用技術層研究內(nèi)容深度Web搜索(DeepWebSearch,精確化、智能化、綜合化信息搜索)頁面分類(DocumentClassification)頁面聚類(DocumentCluster)網(wǎng)頁摘要(DocumentAutomaticSummarization)Web搜索與數(shù)據(jù)挖掘云計算技術與大數(shù)據(jù)處理技術197應用技術層研究內(nèi)容機器翻譯(MachineTranslation)情感分析(SentimentAnalysis)輿情分析(PublicOpinionAnalysis)智能輸入(SmartInput)問答系統(tǒng)(QA)自然語言處理云計算技術與大數(shù)據(jù)處理技術197IBM智力競賽機器人Watson是一個基于MapReduce數(shù)據(jù)并行處理和統(tǒng)計模型自然語言處理的成功應用。IBM智力問答機器人Watson云計算技術與大數(shù)據(jù)處理技術197Watson收集了2億頁知識文本數(shù)據(jù),并基于HadoopMapReduce并行處理集群進行數(shù)據(jù)分析,采用了優(yōu)化的并行體系結(jié)構(gòu)和優(yōu)化的知識和自然語言處理算法,可在1秒內(nèi)完成對大量非結(jié)構(gòu)化信息的檢索,并實時回答知識競賽問答題。IBM智力問答機器人Watson云計算技術與大數(shù)據(jù)處理技術197應用技術層研究內(nèi)容地質(zhì)建模與分析(GeologicalModelingandAnalysis)電影渲染(MovieRendering)大規(guī)模數(shù)據(jù)可視化分析(ScaleVisualAnalytics)3維建模與大規(guī)模數(shù)據(jù)可視化云計算技術與大數(shù)據(jù)處理技術197應用技術層研究內(nèi)容高通量基因序列比對(High-ThroughputGeneSequenceAlignment)生物網(wǎng)絡建模與分析(BiologicalNetworkModelingandAnalysis)生物信息處理云計算技術與大數(shù)據(jù)處理技術197智能化計算層研究內(nèi)容大數(shù)據(jù)并行化機器學習和數(shù)據(jù)挖掘算法大數(shù)據(jù)處理并行化學習和挖掘算法不同并行模型下并行化學習和挖掘算法并行化機器學習和數(shù)據(jù)挖掘工具和平臺云計算技術與大數(shù)據(jù)處理技術1972001,微軟研究院的BankoandBrill*等發(fā)表了一篇自然語言理解領域的經(jīng)典研究論文,探討訓練數(shù)據(jù)集大小對分類精度的影響,發(fā)現(xiàn)數(shù)據(jù)越大,精度越高;更有趣的發(fā)現(xiàn)是,他們發(fā)現(xiàn)當數(shù)據(jù)不斷增長時,不同算法的分類精度趨向于相同,使得小數(shù)據(jù)集時不同算法在精度上的差別基本消失!
結(jié)論引起爭論:看似算法不再要緊,數(shù)據(jù)更重要!看似不再需要研究復雜算法,找更多數(shù)據(jù)就行了*M.BankoandE.Brili(2001).Scalingtoveryverylargecorporafornaturallanguagedisambiguation.ACL2001智能化計算層研究內(nèi)容大數(shù)據(jù)并行化機器學習和數(shù)據(jù)挖掘算法云計算技術與大數(shù)據(jù)處理技術1972007,Google公司Brants*等基于MapReduce研究了一個基于2萬億個單詞訓練數(shù)據(jù)集的語言模型,比較了當時最先進的Kneser-Neysmoothing算法與他們稱之為“stupidbackoff“的簡單算法,最后發(fā)現(xiàn),后者在小數(shù)據(jù)集時效果不佳,但在大數(shù)據(jù)集時,該算法最終居然產(chǎn)生了更好的語言模型!
結(jié)論:大數(shù)據(jù)集上的簡單算法能比小數(shù)據(jù)集上的復雜算法產(chǎn)生更好的結(jié)果!*T.Brants,A.C.Popat,etal.LargeLanguageModelsinMachineTranslation.InEMNLP-CoNLL2007-Proceedingsofthe2007JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning智能化計算層研究內(nèi)容大數(shù)據(jù)并行化機器學習和數(shù)據(jù)挖掘算法云計算技術與大數(shù)據(jù)處理技術197分類(Classification)大規(guī)模支持向量機(LargeScaleSVM)線性核、非線性核;大規(guī)模稀疏數(shù)據(jù)求解大規(guī)模凸二次規(guī)劃問題神經(jīng)網(wǎng)絡(NeuralNetwork)深度學習(DeepLearning),如深度置信網(wǎng)絡(DBN)、卷積神經(jīng)網(wǎng)絡等。BP、SOM網(wǎng)絡樸素貝葉斯(Na?veBayes)決策樹(DecisionTrees)C4.5、CART智能化計算層研究內(nèi)容大數(shù)據(jù)并行化機器學習和數(shù)據(jù)挖掘算法云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)并行化機器學習和數(shù)據(jù)挖掘算法聚類(Clustering)K-Means算法關聯(lián)規(guī)則挖掘Apriori算法參數(shù)估計(ParametersEstimation)EM算法智能化計算層研究內(nèi)容云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)并行化機器學習和數(shù)據(jù)挖掘算法高維度數(shù)據(jù)降維(DimensionReduction)LDA算法、PCA算法、ICA算法、一些流形學習(ManifoldLearning)算法集成學習(EnsembleLearning)AdaBoost算法圖數(shù)據(jù)挖掘圖聚類,圖分類圖模式匹配(子圖同構(gòu)、最大公共子圖…)…智能化計算層研究內(nèi)容云計算技術與大數(shù)據(jù)處理技術197并行編程模型與計算框架層研究內(nèi)容MapReduceHadoop性能優(yōu)化針對I/0的優(yōu)化、針對充分利用內(nèi)存的優(yōu)化(Berkeley的Spark)針對流程的優(yōu)化(優(yōu)化Shuffle過程、SHadoop)針對作業(yè)、任務和Slot資源的調(diào)度優(yōu)化(IBM的AMapReduce,F(xiàn)acebook的Corona)MapReduce并行計算框架改進迭代式MapReduce執(zhí)行框架(Twister,HaLoop)流式MapReduce執(zhí)行框架(HadoopOnline)云計算技術與大數(shù)據(jù)處理技術197并行編程模型與計算框架層研究內(nèi)容MapReduceMapReduce在不同構(gòu)架上的實現(xiàn)基于眾核構(gòu)架的MapReduce(Stanford的Phoenix,上海交大基于多核的MapReduce)基于GPU的MapReduce(香港科大、上海交大)云計算技術與大數(shù)據(jù)處理技術197并行編程模型與計算框架層研究內(nèi)容BSP(BulkSynchronizedParallel)基于BSP模型的并行處理框架大規(guī)模圖數(shù)據(jù)并行處理框架和系統(tǒng)Google的Pregel微軟的TrinityCUDA、MPI、OpenMP提升可編程性云計算技術與大數(shù)據(jù)處理技術197并行編程模型與計算框架層研究內(nèi)容定制式并行計算框架全內(nèi)存集群計算(Spark)大規(guī)模流式數(shù)據(jù)處理(S4)特定應用問題的定制式并行計算框架混合式并行計算模型和框架*MapReduce+CUDA并行計算框架的設計與優(yōu)化MapReduce+MPI和MapReduce+BSP并行計算框架設計與優(yōu)化*ASurveyofParallelProgrammingModelsandToolsintheMultiandMany-CoreEraJavierDiaz,CameliaMun?oz-Caro,andAlfonsoNino.IEEETRANSACTIONSONPARALLELANDDISTRIBUTEDSYSTEMS,VOL.23,NO.8,AUGUST2012云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)存儲管理層研究內(nèi)容大數(shù)據(jù)預處理技術大數(shù)據(jù)的采集和傳輸大數(shù)據(jù)的清洗過濾和質(zhì)量管理技術大數(shù)據(jù)的壓縮技術記錄型大數(shù)據(jù)索引和查詢技術靜態(tài)記錄型大數(shù)據(jù)索引技術流式/增量式記錄型大數(shù)據(jù)索引技術大數(shù)據(jù)表的高效關系型操作(如查詢連接)大數(shù)據(jù)并行化查詢技術云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)存儲管理層研究內(nèi)容圖數(shù)據(jù)表示和查詢技術靜態(tài)圖數(shù)據(jù)的表示和存儲靜態(tài)圖數(shù)據(jù)的查詢流式/增量式圖數(shù)據(jù)的表示和存儲流式/增量式圖數(shù)據(jù)的查詢圖數(shù)據(jù)并行化查詢技術SQL/NoSQL查詢語言接口與技術SQL/NoSQL查詢語言接口并行化查詢執(zhí)行機制云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)存儲管理層研究內(nèi)容混合式數(shù)據(jù)表示和存儲管理模型結(jié)構(gòu)化/半結(jié)構(gòu)/非結(jié)構(gòu)化數(shù)據(jù)混合存儲管理模型NoSQL數(shù)據(jù)庫技術混合式數(shù)據(jù)下的數(shù)據(jù)關系和查詢操作技術云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)存儲管理層研究內(nèi)容分布式數(shù)據(jù)庫HBase性能優(yōu)化基于HBase的大數(shù)據(jù)索引和查詢技術分布式內(nèi)存數(shù)據(jù)庫存儲技術基于分布式內(nèi)存數(shù)據(jù)庫的大數(shù)據(jù)應用問題計算分布式文件系統(tǒng)HDFS的優(yōu)化云計算技術與大數(shù)據(jù)處理技術197并行構(gòu)架和計算平臺層研究內(nèi)容共享內(nèi)存構(gòu)架多核,GPU分布內(nèi)存構(gòu)架集群混合式構(gòu)架集群+多核集群+GPU云計算技術與大數(shù)據(jù)處理技術197并行構(gòu)架和計算平臺層研究內(nèi)容大數(shù)據(jù)應用/服務云計算支撐平臺大數(shù)據(jù)云存儲技術大數(shù)據(jù)并行計算系統(tǒng)可靠性與容錯恢復技術云計算支撐平臺和框架云計算技術與大數(shù)據(jù)處理技術197第三部分
大數(shù)據(jù)并行處理技術研究云計算技術與大數(shù)據(jù)處理技術197大數(shù)據(jù)處理的主要技術問題大數(shù)據(jù)處理的主要研究內(nèi)容大數(shù)據(jù)存儲管理模型和技術大數(shù)據(jù)索引和查詢技術大數(shù)據(jù)并行編程模型和計算框架Hadoop系統(tǒng)改進與優(yōu)化研究基于大數(shù)據(jù)的機器學習和數(shù)據(jù)挖掘并行算法大數(shù)據(jù)社會網(wǎng)絡分析基于大數(shù)據(jù)分析的推薦系統(tǒng)大數(shù)據(jù)自然語言處理大數(shù)據(jù)媒體分析檢索技術大規(guī)模Web挖掘與搜索大數(shù)據(jù)3維建模與可視化分析大數(shù)據(jù)并行處理應用系統(tǒng)云計算技術與大數(shù)據(jù)處理技術197問題背景
大數(shù)據(jù)使得傳統(tǒng)的關系數(shù)據(jù)庫已經(jīng)難以勝任,在存儲能力和查詢性能上都難以滿足大數(shù)據(jù)存儲和查詢管理的需求。因此,需要針對應用需求研究大數(shù)據(jù)的索引和查詢技術
大數(shù)據(jù)索引和查詢技術Oracle海量數(shù)據(jù)庫系統(tǒng)Exadata,每個定制集群系統(tǒng)2千萬元,存儲100TB高性能數(shù)據(jù)IBM基于數(shù)據(jù)庫DB2構(gòu)建了定制的數(shù)據(jù)倉庫集群系統(tǒng),每集群存儲數(shù)據(jù)60TB,價格5百萬元這些定制的分布式關系數(shù)據(jù)庫系統(tǒng)價格過于昂貴,而數(shù)據(jù)存儲處理能力仍然難以滿足大數(shù)據(jù)處理要求,且系統(tǒng)難以擴充云計算技術與大數(shù)據(jù)處理技術197主要研究問題
大數(shù)據(jù)索引和查詢技術主要研究非結(jié)構(gòu)化或半結(jié)構(gòu)化大數(shù)據(jù)的快速索引和查詢優(yōu)化技術,尤其是面向特定應用領域的大數(shù)據(jù)索引機制和管理技術、以及流式或增量式實時/準實時數(shù)據(jù)的索引和查詢優(yōu)化技術目前本報課題組正在研究基于分布式混合樹索引的大數(shù)據(jù)索引和快速查詢技術和算法。大數(shù)據(jù)索引和查詢技術云計算技術與大數(shù)據(jù)處理技術197大規(guī)模移動電話通聯(lián)記錄索引和查詢技術移動電話通聯(lián)記錄(CDR)數(shù)據(jù)量巨大,關系數(shù)據(jù)庫已經(jīng)越來越難以承受和勝任大量電話記錄的管理和查詢處理,為此,需要考慮基于Hadoop的分布式CDR數(shù)據(jù)存儲和查詢技術。例如,在移動電話公司內(nèi)部,最常使用的查詢是依據(jù)電話號碼(一個指定號碼或者一個屏蔽了最后4位數(shù)字的萬字段號碼查詢),加上其他查詢信息(如局向、撥打或接受時間等)。為此提高查詢速度,我們可以基于電話號碼建立專門的快速查詢索引表,然后使用兩分快速查找方法,即可快速查詢到指定號碼的CDR數(shù)據(jù)記錄。大數(shù)據(jù)索引和查詢技術云計算技術與大數(shù)據(jù)處理技術197大規(guī)模移動電話通聯(lián)記錄索引和查詢技術CDR兩級查詢索引大數(shù)據(jù)數(shù)據(jù)索引和查詢技術基于電話號碼的等長二級索引表,可以進行快速的兩分查找定位一級索引表中的offset包含其他查詢信息,定位到指定號碼后,可進行基于其他信息(局向、日期等)的進一步查詢處理云計算技術與大數(shù)據(jù)處理技術197大規(guī)模移動電話通聯(lián)記錄索引和查詢技術CDR兩級查詢索引大數(shù)據(jù)數(shù)據(jù)索引和查詢技術20億個號碼的CDR電話記錄最多只需要比較大約31次即可完成!云計算技術與大數(shù)據(jù)處理技術197面向在線查詢類任務的Hadoop系統(tǒng)性能優(yōu)化Hadoop系統(tǒng)設計時重點考慮了高吞吐率大數(shù)據(jù)的處理,在作業(yè)執(zhí)行性能上不夠理想,對實時響應要求較高的查詢類作業(yè)難以滿足要求。我們進行的工作:1.基于短作業(yè)任務調(diào)度的性能優(yōu)化2.基于動態(tài)slot調(diào)度的性能優(yōu)化
Hadoop系統(tǒng)改進與優(yōu)化研究研究論文:BigDataMR2012,計算機研究與發(fā)展,IPDPS2013SHadoop:OptimizingExecutionPerformanceofShortMapReduceJobsRongGu,XiaoliangYang,JinshuangYan,ChunfengYuan,andYihuaHuangPerformanceOptimizationforShortMapReduceJobExecutioninHadoop
JinshuangYan,XiaoliangYang,RongGu,ChunfengYuan,andYihuaHuang云計算技術與大數(shù)據(jù)處理技術197基于短作業(yè)任務調(diào)度的Hadoop系統(tǒng)性能優(yōu)化現(xiàn)有標準MapReduce作業(yè)初始化和結(jié)束時需要花費十幾秒的常數(shù)時間,作業(yè)執(zhí)行時,map和reduce任務的調(diào)度都依賴于心跳機制進行任務調(diào)度時的消息傳遞和通信,因而任務調(diào)度時間開銷較大,效率較低解決方案:we
optimizethesetupandcleanuptaskstoreducethetimecostduringtheinitializationandterminationstagesofajob我們優(yōu)化了作業(yè)初始化和作業(yè)結(jié)束階段的setup和cleanup兩個特殊任務的調(diào)度,去除了以前所有作業(yè)都需要花費的十幾秒常數(shù)時間wedesignandimplementaninstantmessagingmodelintothestandardHadoopfortaskschedulingeventnotificationsbetweentheJobTrackerandTaskTrackers,insteadofusingtheoriginalheartbeat-basedcommunicationmechanism
我們在JobTracker和TaskTracker之間設計實現(xiàn)了一種即時消息傳遞機制,去除了原有的心跳通信機制,顯著縮短了作業(yè)內(nèi)任務的調(diào)度時間
Hadoop系統(tǒng)改進與優(yōu)化研究云計算技術與大數(shù)據(jù)處理技術197基于短作業(yè)任務調(diào)度的Hadoop系統(tǒng)性能優(yōu)化
實驗結(jié)果:對WorldCount,
Grep和TeraSort等MapReduce的標準Benchmark程序執(zhí)行性能提升達到35%WorldCount
GrepTeraSort
Hadoop系統(tǒng)改進與優(yōu)化研究優(yōu)化前優(yōu)化后云計算技術與大數(shù)據(jù)處理技術197基于動態(tài)slot調(diào)度的Hadoop系統(tǒng)性能優(yōu)化現(xiàn)有標準MapReduce作業(yè)執(zhí)行時其底層的Slot調(diào)度是通過靜態(tài)的配置文件設置的,作業(yè)執(zhí)行過程中即使有空閑的Slot也無法為忙綠的任務所使用,map任務與reduce任務間的Slot也不能互換使用,因而系統(tǒng)的Slot計算資源使用率不高,也導致作業(yè)執(zhí)行性能不高解決方案:基本解決方案是,我們在作業(yè)執(zhí)行過程中及時收集Hadoop系統(tǒng)Slot資源分配使用的動態(tài)信息,并根據(jù)這些信息為作業(yè)動態(tài)分配和調(diào)度Slot資源此項工作目前正在編碼實現(xiàn)和調(diào)試階段Hadoop系統(tǒng)改進與優(yōu)化研究云計算技術與大數(shù)據(jù)處理技術197基礎性大數(shù)據(jù)并行算法機器學習與數(shù)據(jù)挖掘基礎算法并行化聚類算法并行化分類算法并行化關聯(lián)規(guī)則挖掘算法神經(jīng)網(wǎng)絡并行化算法圖比對并行化算法……云計算技術與大數(shù)據(jù)處理技術197基礎性大數(shù)據(jù)并行算法頻繁項集挖掘并行化算法本研究組進行了基于MapReduce的頻繁項集挖掘算法研究基本思路是基于傳統(tǒng)的Apriori算法和SON算法,提出并實現(xiàn)了一個并行化的頻繁項集挖掘算法PSON,用兩輪MapReduce實現(xiàn)了大規(guī)模頻繁項集挖掘并行計算研究論文,已發(fā)表于PAAP2011國際會議PSON:AParallelizedSONAlgorithmwithMapReduceforMiningFrequentSetsTaoXiao,ShuaiWang,ChunfengYuan,YihuaHuangTheFourthInternationalSymposiumonParallelArchitectures,AlgorithmsandProgramming(PAAP2011),Tianjin,Dec.9-11,2011云計算技術與大數(shù)據(jù)處理技術197SupposeIisanitemsetconsistingofitemsfromthetransactiondatabaseDLetNbethenumberoftransactionsDLetMbethenumberoftransactionsthatcontainalltheitemsof
IM/NisreferredtoasthesupportofIinD
ExampleHere,N=4,letI={I1,I2},thanM=2becauseI={I1,I2}iscontainedintransactionsT100andT400sothesupportofIis0.5(2/4=0.5)Ifsup(I)isnolessthatanuser-definedthreshold,thenIisreferredtoasafrequentitemsetGoaloffrequentsetsminingTofindallfrequentk-itemsetsfromatransactiondatabase(k=1,2,3,)枚舉計算的時間復雜度是:O(2n*N*t),n是Item的總數(shù),N是Transaction總數(shù),t是每個Transaction平均包含的Item數(shù)云計算技術與大數(shù)據(jù)處理技術197MapphaseEachmapnodetakesinonepartitionandgenerateslocalfrequentitemsetsforthatpartitionusingApriorialgorithm.ForeachlocalfrequentitemsetF,emitskey-valuepair<F,1>.Here,thevalue1isonlytoindicatethatFisalocalfrequentitemsetforthatpartition.ShuffleandSortphaseThesamelocalfrequentitemsetsaresenttoonereducenode.ReducephaseEachreducenodeemitsoneandonlyonekey-valuepair<F,1>toDFSFinallyMergingallthepairsinDFSgivesusallglobalcandidateitemsets云計算技術與大數(shù)據(jù)處理技術197AssumptionEachnodeisgivenafullduplicateoftheglobalcandidateitemsetsgeneratedbythe1stMapReducejobbeforehandMapphaseEachmapnodecountsforeachoftheglobalcandidateitemsetsinthepartitionthemapnodeisassignedThenemitspairslike<C,v>whereCisaglobalcandidateitemsetand
visthecountofitinthatpartitionShuffleandSortphaseEachglobalcandidateitemsetanditscountsinallthepartitionsaresenttoonereducenodeReducephaseForeachglobalcandidateitemsetC,reducenodeaddsupalltheassociativecountsforCandemitsonlytheactualglobalfrequentitemsetstoDFS云計算技術與大數(shù)據(jù)處理技術197Thetransactiondatabasesizevariesfrom6GBto60GB,withthenumberoftransactionsvariesfrom1millionto500billionConclusion:WhenthesizeofthedatabasereachesathresholdofhundredsofGB,PSONcanfinishrunninginanacceptableperiodoftime,achievingagoodperformanceinscale-upPSONcanachieveagoodperformanceinspeed-up云計算技術與大數(shù)據(jù)處理技術197基礎性大數(shù)據(jù)并行算法查詢推薦QUBIC并行化算法本研究組進行了基于MapReduce的查詢推薦QUBIC并行化算法?;舅悸肥腔谟脩羧罩驹O計查詢推薦算法,首先挖掘用戶日志中Query與URL之間的關系,尋找Q
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年有害生物防制員中級考試模擬試卷:蟲害防治員職業(yè)能力與職業(yè)素養(yǎng)
- 廣東省汕尾市2025學年八年級上學期數(shù)學應用題(和差倍)綜合測評試題
- 2025年高考數(shù)學模擬試題:三角函數(shù)與平面向量綜合解題策略解析卷
- 2025年馬來西亞留學英語考試(MUET)高級模擬試卷(商務詞匯)-掌握2025年商務英語專業(yè)詞匯
- 高中生物選修三模塊2025年秋季學期期末考試試題解析
- 高中地理必修三單元測試卷2025:地理信息技術與地理信息處理
- 安全生產(chǎn)珍愛生命
- 2025年護士執(zhí)業(yè)資格考試題庫(社區(qū)護理學專項)-社區(qū)護理案例分析試題
- 成人高考數(shù)學(理)沖刺全真模擬試卷押題預測班必刷真題
- 2025年全國導游資格考試導游業(yè)務案例分析真題匯編與模擬
- 鋼板樁安全技術交底
- 師德師風-做“四有”好老師
- 衣食住行見證改革開放時代變遷-(修訂)
- 弱電智能化施工方案
- TQGCML 3946-2024 柴油發(fā)電機組維護保養(yǎng)規(guī)范
- DGTJ08-9-2023 建筑抗震設計標準
- 輸變電工程質(zhì)量通病防治手冊
- 新生兒X線檢查
- 2024年江西省中考生物·地理合卷試卷真題(含答案逐題解析)
- 【暑假銜接】知識點專題13 寫話 (講義+試題) 二升三年級語文(含答案)部編版
- 老年人智能手機使用教程課件
評論
0/150
提交評論