




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)技術專題研究2017.3.3大數(shù)據(jù)概述1大數(shù)據(jù)主要技術、廠商、產(chǎn)品2目錄能力儲備分析3討論4大數(shù)據(jù)概述大數(shù)據(jù)概念大數(shù)據(jù)(bigdata)是指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)概述體量大Volume類型多Variety價值密度低Value速度快Velocity非結構化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結構化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等)實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效大數(shù)據(jù)的4V特性文件存儲數(shù)據(jù)分析數(shù)據(jù)計算數(shù)據(jù)存儲平臺管理數(shù)據(jù)集成數(shù)據(jù)源Database
Web
Log…現(xiàn)代數(shù)據(jù)處理
能力組件現(xiàn)代數(shù)據(jù)處理框架
計算存儲}容錯}}大數(shù)據(jù)概述大數(shù)據(jù)的三大關鍵問題——存儲、計算、容錯大數(shù)據(jù)概述大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價值發(fā)現(xiàn)相關的企業(yè)經(jīng)濟活動的集合產(chǎn)業(yè)鏈環(huán)節(jié)包含內容IT基礎設施層包括提供硬件、軟件、網(wǎng)絡等基礎設施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務的企業(yè),比如,提供數(shù)據(jù)中心解決方案的IBM、惠普和戴爾等,提供存儲解決方案的EMC,提供虛擬化管理軟件的微軟、思杰、SUN、Redhat等數(shù)據(jù)源層大數(shù)據(jù)生態(tài)圈里的數(shù)據(jù)提供者,是生物大數(shù)據(jù)(生物信息學領域的各類研究機構)、交通大數(shù)據(jù)(交通主管部門)、醫(yī)療大數(shù)據(jù)(各大醫(yī)院、體檢機構)、政務大數(shù)據(jù)(政府部門)、電商大數(shù)據(jù)(淘寶、天貓、蘇寧云商、京東等電商)、社交網(wǎng)絡大數(shù)據(jù)(微博、微信、人人網(wǎng)等)、搜索引擎大數(shù)據(jù)(百度、谷歌等)等各種數(shù)據(jù)的來源數(shù)據(jù)管理層包括數(shù)據(jù)抽取、轉換、存儲和管理等服務的各類企業(yè)或產(chǎn)品,比如分布式文件系統(tǒng)(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、數(shù)據(jù)庫和數(shù)據(jù)倉庫(Oracle、MySQL、SQLServer、HBase、GreenPlum等)數(shù)據(jù)分析層包括提供分布式計算、數(shù)據(jù)挖掘、統(tǒng)計分析等服務的各類企業(yè)或產(chǎn)品,比如,分布式計算框架MapReduce、統(tǒng)計分析軟件SPSS和SAS、數(shù)據(jù)挖掘工具Weka、數(shù)據(jù)可視化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等數(shù)據(jù)平臺層包括提供數(shù)據(jù)分享平臺、數(shù)據(jù)分析平臺、數(shù)據(jù)租售平臺等服務的企業(yè)或產(chǎn)品,比如阿里巴巴、谷歌、中國電信、百度等數(shù)據(jù)應用層提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應用的企業(yè)、機構或政府部門,比如交通主管部門、各大醫(yī)療機構、菜鳥網(wǎng)絡、國家電網(wǎng)等大數(shù)據(jù)概述大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領域最新的技術發(fā)展趨勢,三者相輔相成,既有聯(lián)系又有區(qū)別云計算實現(xiàn)了通過網(wǎng)絡提供可伸縮的、廉價的分布式計算能力,用戶只需要在具備網(wǎng)絡接入條件的地方,就可以隨時隨地獲得所需的各種IT資源。云計算關鍵技術包括:虛擬化、分布式存儲、分布式計算、多租戶等。云計算大數(shù)據(jù)概述大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領域最新的技術發(fā)展趨勢,三者相輔相成,既有聯(lián)系又有區(qū)別物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng),是互聯(lián)網(wǎng)的延伸,它利用局部網(wǎng)絡或互聯(lián)網(wǎng)等通信技術把傳感器、控制器、機器、人員和物等通過新的方式聯(lián)在一起,形成人與物、物與物相聯(lián),實現(xiàn)信息化和遠程管理控制。物聯(lián)網(wǎng)中的關鍵技術包括識別和感知技術(二維碼、RFID、傳感器等)、網(wǎng)絡與通信技術、數(shù)據(jù)挖掘與融合技術等。物聯(lián)網(wǎng)大數(shù)據(jù)概述大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關系大數(shù)據(jù)概述1大數(shù)據(jù)主要技術、廠商、產(chǎn)品2目錄能力儲備分析3討論4大數(shù)據(jù)主要技術技術體系數(shù)據(jù)可視化技術數(shù)據(jù)處理技術數(shù)據(jù)存儲技術數(shù)據(jù)采集技術數(shù)據(jù)安全技術系統(tǒng)運維技術大數(shù)據(jù)主要技術主要技術說明數(shù)據(jù)采集技術通過ETL抽取、文件適配器、網(wǎng)絡抓取、實時數(shù)據(jù)采集等多種技術從外部數(shù)據(jù)源導入結構化數(shù)據(jù)(關系庫記錄)、半結構化數(shù)據(jù)(日志、郵件等)、非結構化數(shù)據(jù)(文件、視頻、音頻、網(wǎng)絡數(shù)據(jù)流等)及實時數(shù)據(jù)。數(shù)據(jù)存儲技術負責進行大數(shù)據(jù)的存儲,針對全數(shù)據(jù)類型和多樣計算需求,以海量規(guī)模存儲、快速查詢讀取為特征,存儲來自外部數(shù)據(jù)源的各類數(shù)據(jù),支撐數(shù)據(jù)處理層的高級應用。數(shù)據(jù)處理技術對多樣化的大數(shù)據(jù)進行加工、處理、分析、挖掘,產(chǎn)生新的業(yè)務價值,發(fā)現(xiàn)業(yè)務發(fā)展方向,提供業(yè)務決策依據(jù)。數(shù)據(jù)可視化技術是關于數(shù)據(jù)之視覺表現(xiàn)形式的研究,主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息數(shù)據(jù)安全技術解決從大數(shù)據(jù)環(huán)境下的數(shù)據(jù)采集、存儲、分析、應用等過程中產(chǎn)生的諸如身份驗證、授權過程和輸入驗證等大量安全問題。由于在數(shù)據(jù)分析、挖掘過程中涉及企業(yè)各業(yè)務的核心數(shù)據(jù),防止數(shù)據(jù)泄露,控制訪問權限等安全措施在大數(shù)據(jù)應用中尤為關鍵。系統(tǒng)運維技術全面監(jiān)測大數(shù)據(jù)處理全過程中各參與方的整體狀態(tài),支持大數(shù)據(jù)應用功能的配置化定義,可快速擴展應用功能。技術分類大數(shù)據(jù)主要技術兩大核心技術分布式存儲分布式處理GFS\HDFSBigTable\HBaseNoSQL(鍵值、列族、圖形、文檔數(shù)據(jù)庫)NewSQL(如:SQLAzure)MapReduce大數(shù)據(jù)大數(shù)據(jù)主要技術hadoopHDFS(HadoopDistributedFileSystem)sparkopenstackMapReduceStormHPCCNoSqlgfsApacheDrillRapidMinerPentahoBIZookeeper關鍵技術介紹大數(shù)據(jù)主要技術關鍵技術介紹-Hadoop一個分布式系統(tǒng)基礎架構,由Apache基金會所開發(fā)。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streamingaccess)文件系統(tǒng)中的數(shù)據(jù)。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。大數(shù)據(jù)主要技術關鍵技術介紹-HDFSHadoopDistributedFileSystem,簡稱HDFS[1],是一個分布式文件系統(tǒng)。HDFS有著高容錯性(fault-tolerant)的特點,并且設計用來部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以實現(xiàn)流的形式訪問(streamingaccess)文件系統(tǒng)中的數(shù)據(jù)。HDFS開始是為開源的apache項目nutch的基礎結構而創(chuàng)建,HDFS是hadoop項目的一部分,而hadoop又是lucene的一部分。大數(shù)據(jù)主要技術關鍵技術介紹-NoSQLNoSQL(NoSQL=NotOnlySQL),意即“不僅僅是SQL”,是一項全新的數(shù)據(jù)庫革命性運動,早期就有人提出,發(fā)展至2009年趨勢越發(fā)高漲NoSQL的擁護者們提倡運用非關系型的數(shù)據(jù)存儲,相對于鋪天蓋地的關系型數(shù)據(jù)庫運用,這一概念無疑是一種全新的思維的注入??梢蕴幚沓罅康臄?shù)據(jù)。NoSQL對大型企業(yè)來說還不是主流。大數(shù)據(jù)主要技術關鍵技術介紹–其他大數(shù)據(jù)廠商及產(chǎn)品大數(shù)據(jù)應用類大數(shù)據(jù)數(shù)據(jù)源類大數(shù)據(jù)基礎設施類大數(shù)據(jù)分析類大數(shù)據(jù)廠商及產(chǎn)品1.大數(shù)據(jù)基礎設施類1)硬件類主要廠商有華為、中興、聯(lián)想、浪潮、IBM、HP、戴爾等。2)軟件類基于大數(shù)據(jù)基礎設施提供云服務的有AmazonWebServiceElasticMapReduce、GoogleBigQuery、Infochimps、MicrosoftWindowsAzure,阿里云等。軟件類主要廠商有達夢、南大通用、人大金倉、博曉通等。大數(shù)據(jù)廠商及產(chǎn)品2.大數(shù)據(jù)分析類1)分析解決方案在這里,最耀眼的明星當屬Hadoop,Hadoop已被公認為是新一代的大數(shù)據(jù)處理平臺,Cloudera、Hortonworks、MapR、Informatica、Microsoft以及Oracle都紛紛投入了Hadoop的懷抱。其他還包括HP的Vertica、EMC的GreenplumHD、IBM的BigInsights、用友、久其、永洪科技、星圖數(shù)據(jù)、北斗天成、智慧圖等。2)數(shù)據(jù)可視化主要廠商有TeraDataAster、SAS、TableauSoftware、Tibco、EMCGreenplum、海云數(shù)據(jù)、國云數(shù)據(jù)、數(shù)字冰雹、曼恒數(shù)字等。3)精準營銷有騰訊、新浪、搜狐、網(wǎng)易、微眾、迅雷、今日頭條、博易智訊等。4)分析服務提供輿情分析的服務主要有方正、Talkingdata、中科數(shù)據(jù)、紅麥、拓爾思等。大數(shù)據(jù)廠商及產(chǎn)品2.大數(shù)據(jù)分析類-分析解決方案平臺解決方案廠商除去IBM、SAP、Oracle、微軟、惠普國外代表廠商,在國內有星環(huán)科技、帆軟軟件、用友、永洪等等。星環(huán)科技星環(huán)信息科技主要從事大數(shù)據(jù)時代核心平臺數(shù)據(jù)庫軟件的研發(fā)與服務,被Gartner列為國際主流Hadoop發(fā)行版廠商。其產(chǎn)品TranswarpDataHub提供高速SQL引擎TranswarpInceptor,NoSQL搜索引擎TranswarpHyperbase、流處理引擎TranswarpStream和數(shù)據(jù)挖掘組件TranswarpDiscover。帆軟軟件帆軟軟件由報表軟件FineReport起家,目前已成為報表領域的權威者,擁有10年企業(yè)數(shù)據(jù)分析的行業(yè)經(jīng)驗。后發(fā)布的商業(yè)智能自助式BI工具FineBI,提供包括Hadoop、分布式數(shù)據(jù)庫、多維數(shù)據(jù)庫的大數(shù)據(jù)可視化分析;提供PC端、移動端、大屏的可視化方案,廣泛應用于銀行、電商、地產(chǎn)、醫(yī)藥、制造、電信、制造、化工等行業(yè),擁有成熟的行業(yè)化解決方案。大數(shù)據(jù)廠商及產(chǎn)品2.大數(shù)據(jù)分析類-數(shù)據(jù)可視化數(shù)字冰雹數(shù)字冰雹主營大數(shù)據(jù)可視化業(yè)務,提供集設計、程序開發(fā)、硬件集成為一體的解決方案,廣泛應用于航天戰(zhàn)場、智慧城市、網(wǎng)絡安全、企業(yè)管理、工業(yè)監(jiān)控等領域。海云數(shù)據(jù)海云數(shù)據(jù)的產(chǎn)品——圖易能夠集成用戶內部系統(tǒng)大量結構化、非結構化數(shù)據(jù),在真實的數(shù)據(jù)源上,將行業(yè)大數(shù)據(jù)進行多維度的可視分析。目前主要應用于公安、航空、快消、制造、金融、醫(yī)療、信息安全等領域。
星圖數(shù)據(jù)星圖數(shù)據(jù)是互聯(lián)網(wǎng)大數(shù)據(jù)服務公司,涉及線上零售、線上娛樂、線上教育等領域?;诜植际酱髷?shù)據(jù)獲取與存儲系統(tǒng)進行大數(shù)據(jù)處理及分析,具有自有的大數(shù)據(jù)分析體系和云計算處理技術。大數(shù)據(jù)廠商及產(chǎn)品2.大數(shù)據(jù)分析類-精準營銷分析大數(shù)據(jù)技術使得用戶在互聯(lián)網(wǎng)的行為,得到精準定位,從而細化營銷方案、快速迭代產(chǎn)品。這方面的廠商有GrowingIO、神策數(shù)據(jù)等。GrowingIOGrowingIO是基于互聯(lián)網(wǎng)的用戶行為數(shù)據(jù)分析產(chǎn)品,具有無埋點的數(shù)據(jù)采集技術,可以通過網(wǎng)頁或APP的瀏覽軌跡、點擊記錄和鼠標滑動軌跡等行為數(shù)據(jù),進行實時的用戶行為數(shù)據(jù)分析,用于優(yōu)化產(chǎn)品體驗,實現(xiàn)精益化運營。神策數(shù)據(jù)與GrowingIO類似,也是基于用戶網(wǎng)絡行為,采集數(shù)據(jù)進行分析。技術上提供開放的查詢API和完整的SQL接口,同時與MapReduce和
Spark等計算引擎無縫融合,隨時以最高效的方式來訪問干凈、規(guī)范的數(shù)據(jù)。大數(shù)據(jù)廠商及產(chǎn)品2.大數(shù)據(jù)分析類-分析服務提供輿情分析的有百度統(tǒng)計、品友互動、Talkingdata、友盟、中科數(shù)據(jù)等等。百度統(tǒng)計百度統(tǒng)計是專業(yè)的網(wǎng)站流量分析工具,和GA類似,提供免費的流量分析、來源分析、網(wǎng)站分析等多種統(tǒng)計分析服務,能夠告訴用戶訪客是如何找到并瀏覽用戶的網(wǎng)站,在網(wǎng)站上做了些什么,以此來改善訪客在用戶的網(wǎng)站上的使用體驗。Talking
DataTalkingData是獨立的第三方移動數(shù)據(jù)服務品牌。其產(chǎn)品及服務涵蓋移動應用數(shù)據(jù)統(tǒng)計、移動廣告監(jiān)測、移動游戲運營、公共數(shù)據(jù)查詢、綜合數(shù)據(jù)管理等多款極具針對性的產(chǎn)品及服務。在銀行、互聯(lián)網(wǎng)、電商行業(yè)有廣泛的數(shù)據(jù)服務應用。友盟+第三方全域大數(shù)據(jù)服務提供商,通過全面覆蓋PC、手機、傳感器、無線路由器等多種設備數(shù)據(jù),打造全域數(shù)據(jù)平臺。提供全業(yè)務鏈數(shù)據(jù)應用解決方案,包括基礎統(tǒng)計、運營分析、數(shù)據(jù)決策和數(shù)據(jù)業(yè)務等,幫助企業(yè)實現(xiàn)數(shù)據(jù)化運營和管理。大數(shù)據(jù)廠商及產(chǎn)品3.大數(shù)據(jù)應用類1)商業(yè)智能產(chǎn)品BI產(chǎn)品主要有Oracle的Hyperion、SAPBusinessObjects,MicrosoftBusinessIntelligence、IBMCongnos,SAS,HP的Autonomy、QlikView等
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 全景式民用航空器維修考試試題及答案分析
- 入團考試成功的關鍵試題及答案經(jīng)驗分享
- 英語教學課件Module 8 Unit 2 Sam is going to ride a horse. 課件共
- 一級建造師專業(yè)知識考核試題及答案
- 英語教學課件Module 7 Unit 1 We fly kites in spring課件-三年級英語下學
- 初級護師考試備考試題及答案
- 安全管理與外語水平的提升試題及答案
- 消防安全標準的制定與修訂過程試題及答案
- 備考策略的試題及答案總結
- 初級審計師考試備考寶典與試題試題及答案
- 婚姻調查合同協(xié)議
- 做情緒的主人培訓課件
- 10.1 美國課件2024-2025學年度七年級下學期人教版地理
- 受限空間作業(yè)施工方案
- 12.4 識讀墩臺結構圖
- 《細胞因子在炎癥反應中的作用》課件
- 企業(yè)員工分紅合同規(guī)定
- 2025屆上海市(春秋考)高考英語考綱詞匯對照表清單
- 醫(yī)院臨床輸血工作總結
- AIGC背景下視覺傳達專業(yè)的教學模式淺談
- 區(qū)域代理方案(3篇)
評論
0/150
提交評論