大數(shù)據(jù)技術(shù)與應(yīng)用第七課_第1頁
大數(shù)據(jù)技術(shù)與應(yīng)用第七課_第2頁
大數(shù)據(jù)技術(shù)與應(yīng)用第七課_第3頁
大數(shù)據(jù)技術(shù)與應(yīng)用第七課_第4頁
大數(shù)據(jù)技術(shù)與應(yīng)用第七課_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)技術(shù)與應(yīng)用與交換技術(shù)交換與智能研究中心2016年9月提綱-大數(shù)據(jù)應(yīng)用1. 大數(shù)據(jù)在各行業(yè)的應(yīng)用概述2. 實例-計算大數(shù)據(jù)系統(tǒng)搭建1. 大數(shù)據(jù)在各行業(yè)的應(yīng)用概述1.11.21.31.41.5大數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)的應(yīng)用大數(shù)據(jù)在電信行業(yè)的應(yīng)用 大數(shù)據(jù)在金融行業(yè)中的應(yīng)用大數(shù)據(jù)在城市管理中的應(yīng)用大數(shù)據(jù)在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用1.1 大數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)的應(yīng)用互聯(lián)網(wǎng)行業(yè)在大數(shù)據(jù)的積累和應(yīng)用方面以阿里和騰訊最為值得關(guān)注。、大數(shù)據(jù)應(yīng)用1.1.1大數(shù)據(jù)來源Ø大數(shù)據(jù)最重要的是來源是通過爬蟲搜集的100多個的近萬億網(wǎng)頁數(shù)據(jù),數(shù)據(jù)量是在EB級的規(guī)模。的數(shù)據(jù)非常多樣化,其收集的數(shù)據(jù)既有為非結(jié)構(gòu)化的或者半結(jié)構(gòu)化的

2、數(shù)據(jù),包括網(wǎng)頁數(shù)據(jù)、為數(shù)據(jù),服務(wù)群體和圖片等數(shù)據(jù),也有結(jié)構(gòu)化的數(shù)據(jù),如用戶的點擊行客戶的行為數(shù)據(jù)等?;ヂ?lián)網(wǎng)網(wǎng)民,通過大數(shù)據(jù)和自然語言處理技術(shù)讓網(wǎng)民的搜索更加準(zhǔn)確;主,通過大數(shù)據(jù)讓主的和搜索的匹配度更高,或者和網(wǎng)民正在看的網(wǎng)頁內(nèi)容匹配度更高;傳統(tǒng)行業(yè)、擁有一定規(guī)模數(shù)據(jù)的企業(yè),通過開放大數(shù)據(jù)引擎能力,將其包裝為應(yīng)用服務(wù),助力傳統(tǒng)行業(yè)、中小企業(yè)。大數(shù)據(jù)應(yīng)用(續(xù))1.1.1大數(shù)據(jù)引擎代表了互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)服務(wù)能力開放和合作的趨勢,大數(shù)據(jù)引擎由以下面:開放云 數(shù)據(jù)工廠大腦大數(shù)據(jù)應(yīng)用(續(xù))1.1.1 開放云Ø的大規(guī)模分布式計算和超大規(guī)模云,開放云開放的是基礎(chǔ)設(shè)施和硬件能力。過去的云主要面向開發(fā)者,

3、大數(shù)據(jù)引擎和處理需求的“大開發(fā)者”。的開放是面向有大數(shù)據(jù)大數(shù)據(jù)應(yīng)用(續(xù))1.1.1 數(shù)據(jù)工廠Ø 數(shù)據(jù)工廠提供將海量數(shù)據(jù)組織、管理的軟件能力,與數(shù)據(jù)庫作用類似,不同的是數(shù)據(jù)工廠是被用作處理TB級甚至更大的數(shù)據(jù)。百度數(shù)據(jù)工廠支持超大規(guī)模異構(gòu)數(shù)據(jù),支持SQL-like以及更復(fù)雜的語句,支持各種業(yè)務(wù)場景。大數(shù)據(jù)應(yīng)用(續(xù))1.1.1大腦大腦將Ø此前在人工智能方面的能力開放出來,主要是大規(guī)模學(xué)習(xí)能力和深度學(xué)習(xí)能力。此前它們被應(yīng)用在語音、圖像、文本識別,以及自然語言和語義理解方面,并通過Inside等平臺開放給了智能硬件?,F(xiàn)在這些能力將被用來對大數(shù)據(jù)進(jìn)行智能化的分析、學(xué)習(xí)、處理、利用,并

4、對外開放。1.1.2 阿里大數(shù)據(jù)應(yīng)用1.1.2 阿里大數(shù)據(jù)應(yīng)用(續(xù))1.1.2 阿里大數(shù)據(jù)應(yīng)用(續(xù))1.1.2 阿里大數(shù)據(jù)應(yīng)用(續(xù))1.1.2 阿里大數(shù)據(jù)應(yīng)用(續(xù))1.1.2 阿里大數(shù)據(jù)應(yīng)用(續(xù))1.1.2 阿里大數(shù)據(jù)應(yīng)用(續(xù))為什么要去IOE?集中式架構(gòu),制約服務(wù)能力Ø 無法快速擴(kuò)容(雙11快速擴(kuò)容需求)Ø 穩(wěn)定性差(一臺服務(wù)器出現(xiàn)問題產(chǎn)生,嚴(yán)重影響服務(wù)質(zhì)量)技術(shù)失控,創(chuàng)新潛力受限Ø 黑盒技術(shù),只能依靠廠商解決問題Ø 黑盒技術(shù)壓制了工程師的聰明才智設(shè)備難以規(guī)?;?#216; 成本高昂Ø機(jī)架、電源1.1.2 阿里大數(shù)據(jù)應(yīng)用(續(xù))IBM小型機(jī)-&

5、gt;通用PC服務(wù)器集群Oracle數(shù)據(jù)庫->MySQL,OceanBase,RDSEMC->TFS,Tair集中式架構(gòu)->分布式架構(gòu)1.1.2 阿里大數(shù)據(jù)應(yīng)用(續(xù))1.1.2 阿里大數(shù)據(jù)應(yīng)用(續(xù))1.1.3 騰訊大數(shù)據(jù)應(yīng)用騰訊的月活躍用戶8.77億月活躍用戶7.62億 空間月活躍用戶6.48億月活躍用戶過億1.1.3 騰訊大數(shù)據(jù)應(yīng)用(續(xù))騰訊大數(shù)據(jù)平臺有如下模塊:TDW、TRC、TDBank、LZ和Gaia。簡單來說,TDW用來做批量的離線計算,TRC負(fù)責(zé)做流式的算,TDBank則作為統(tǒng)一的,調(diào)度。而底層的LZ和Gaia分別負(fù)責(zé)集群的任務(wù)調(diào)度和1.1.3 騰訊大數(shù)據(jù)應(yīng)用(續(xù)

6、)1.1.3 騰訊大數(shù)據(jù)應(yīng)用(續(xù))1.2 大數(shù)據(jù)在電信行業(yè)的應(yīng)用運營商的問題1.2 大數(shù)據(jù)在電信行業(yè)的應(yīng)用(續(xù))運營商的數(shù)據(jù)優(yōu)勢1.2 大數(shù)據(jù)在電信行業(yè)的應(yīng)用(續(xù))國內(nèi)外電信運營商已經(jīng)在大數(shù)據(jù)應(yīng)用方面做出了積極的探索,主要從以下五個方面運用大數(shù)據(jù):管理和優(yōu)化,包括基礎(chǔ)設(shè)施建設(shè)優(yōu)化、理和優(yōu)化;運營管精準(zhǔn)精準(zhǔn),包括客戶畫像、關(guān)系鏈研究、個性化推薦和投放;客戶關(guān)系管理,包括理;中心優(yōu)化以及客戶生命周期管企業(yè)運營管理,包括業(yè)務(wù)運營和經(jīng)營分析;數(shù)據(jù)變現(xiàn),包括提供數(shù)據(jù)結(jié)果。API、直接發(fā)布數(shù)據(jù)或統(tǒng)計1.2 大數(shù)據(jù)在電信行業(yè)的應(yīng)用(續(xù))VerizonØ 美國Verizon成立了精準(zhǔn)部門Precis

7、ion Marketing Division。該部門提供面的服務(wù),首先是精準(zhǔn)洞察(PrecisionMarket Insights), 提供商業(yè)數(shù)據(jù)分析服務(wù); 其次是精準(zhǔn)(Precision Marketing),提供投放支撐;最后是移動商務(wù)(Mobile Commerce),主要面向移動支付系統(tǒng)。T-MobileØ 德國跨境運營商T-Mobile利用分析(Link Analytics)技術(shù)對用戶社交進(jìn)行分析,通過挖掘用戶的社交關(guān)系、所在群體來提高用戶的保有率。1.2 大數(shù)據(jù)在電信行業(yè)的應(yīng)用(續(xù))VodafoneØ 英國Vodafone通過開放API,向數(shù)據(jù)挖掘公司等合作方

8、提供部分用戶地理位置數(shù)據(jù),以掌握人群出行規(guī)律,有效地與一些LBS應(yīng)用服務(wù)對接。西班牙電信Ø 西班牙電信成立了名為“動態(tài)洞察”( Dynamic Insights )的大數(shù)據(jù)業(yè)務(wù)部門,面向全球運營,將為客戶提供數(shù)據(jù)分析打包服務(wù)。DynamicSteps)。該Insights推出的首款名為智慧足跡( Smart基于完全和聚合的移動數(shù)據(jù),可對某個時段、某個地點人流量的關(guān)鍵影響因素進(jìn)行分析,并將洞察結(jié)果面向政企客戶提供。1.2 大數(shù)據(jù)在電信行業(yè)的應(yīng)用(續(xù))中國移動Ø 基于“大云”開展大數(shù)據(jù)應(yīng)用實踐,對內(nèi)支撐精細(xì)化運營,包括支撐客戶體驗提升、精準(zhǔn)、優(yōu)化、企業(yè)管理水平提升;對外尋求新業(yè)

9、務(wù)增長點,包括支撐行業(yè)大數(shù)據(jù)解決方案、數(shù)據(jù)變現(xiàn)及化洞察等對外服務(wù)模式。1.3 大數(shù)據(jù)在金融行業(yè)的應(yīng)用Ø 風(fēng)險管控與第大數(shù)據(jù)公司合作,獲取除客戶基本信息外的其他信息(例如,對于個人客戶,獲取其除基本信息以外的、活動區(qū)域、行業(yè)領(lǐng)域等信息),基于大數(shù)據(jù)技術(shù),降低個人款風(fēng)險。審批、個人或企業(yè)貸1.3 大數(shù)據(jù)在金融行業(yè)的應(yīng)用(續(xù))保險Ø 反利用客戶度信息,結(jié)合保險行為歷史數(shù)據(jù),基于大數(shù)據(jù)技術(shù),檢測保險依托“機(jī)動車輛保險行為。例如,上海保監(jiān)局”、“人身險綜合信息平臺”和“道路交通事故檢驗鑒定信息系統(tǒng)”,進(jìn)行基于大數(shù)據(jù)的保險檢測。1.3 大數(shù)據(jù)在金融行業(yè)的應(yīng)用(續(xù))Ø利用走勢、

10、(包括、等)等非結(jié)構(gòu)化的文本信息,結(jié)合技術(shù)面和基本面等信息,基于大數(shù)據(jù)技術(shù),走勢。例如,IBM使用大數(shù)據(jù)技術(shù)開發(fā)了“指標(biāo)系統(tǒng)”。該系統(tǒng)通過走勢。統(tǒng)計分析中出現(xiàn)的單詞等信息來1.3 大數(shù)據(jù)在金融行業(yè)的應(yīng)用(續(xù))互聯(lián)網(wǎng)金融Ø 資金流入流出互聯(lián)網(wǎng)金(例如,余額寶)往往擁有大量會員并且每天都涉及大量的資金流入和流出。在既保證資金流動性風(fēng)險最小,又滿足日常業(yè)務(wù)運轉(zhuǎn)的情況下,精準(zhǔn)地資金的流入流出情況變得尤為重要。利用歷史資金流入流出數(shù)據(jù)以及用戶相關(guān)數(shù)據(jù),基于大數(shù)據(jù)技術(shù),預(yù)測資金流入流出。1.4 大數(shù)據(jù)在城市管理中的應(yīng)用l 城市計算的基本框架包括: 城市感知及數(shù)據(jù)捕獲、數(shù)據(jù)管理、城市數(shù)據(jù)分析和服務(wù)

11、提供。l城市計算是一個“多數(shù)據(jù)多任務(wù)”系統(tǒng)。城市計算中的任務(wù)包括改進(jìn)城市、緩解交通擁堵、保護(hù)自然環(huán)境、減少能源消耗等。l一個任務(wù)又需要同時用到多種數(shù)據(jù),例如,在城市的設(shè)計過程中,需要同時參結(jié)構(gòu)、點分布、交通流等多種數(shù)據(jù)源。微軟亞洲提出的基于大數(shù)據(jù)的城市管理框架-城市計算1.5 大數(shù)據(jù)在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用生物醫(yī)學(xué)大數(shù)據(jù)廣泛涉及人類健康相關(guān)的各個領(lǐng)域:臨床醫(yī)療、公共衛(wèi)生、研發(fā)、醫(yī)療市場與費用、行為與情緒、人類遺傳學(xué)與組會人口學(xué)、環(huán)境、健康網(wǎng)絡(luò)與數(shù)據(jù)1.5 大數(shù)據(jù)在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用(續(xù))健康管理Ø 通過可穿戴設(shè)備對體征數(shù)據(jù)(心率、脈率、呼吸頻率、體溫、熱消耗量、血壓、血糖、血氧、體脂含量

12、等)的實時、連續(xù)監(jiān)測,提供實時健康指導(dǎo)與建議,更好地實施健康管理。公共衛(wèi)生監(jiān)測Ø 通過覆蓋社交的患者電子數(shù)據(jù)庫進(jìn)行監(jiān)測,或通過監(jiān)測或頻繁檢索的詞條來某些傳染病的流行。例如,Trends通過找尋“流感癥狀”和“流感治療”等搜索詞的峰值,在醫(yī)院。流感患者增加之前就能對某些地區(qū)的流感做出2. 計算系統(tǒng)2.12.22.3概述與計算門戶的展示面向系統(tǒng)概述-歷史2.1出現(xiàn)的歷史十分悠久,考古學(xué)家從古代廢墟的遺址里,亦有發(fā)現(xiàn)的蹤影。早期的以事務(wù)性為主,例如在古埃及的就有用莎草紙上制作銷售推廣或?qū)ふ沂锏暮?;在古,也有透過壁畫的形式來達(dá)至商業(yè)宣傳的效果。現(xiàn)代的出現(xiàn),大約在17世紀(jì)的英國開始,當(dāng)時的

13、是報章內(nèi)的宣傳,以書籍的銷售為主,后來因為宣傳效果良好,亦開始采用這個宣傳途徑。概述-歷史2.1概述-歷史2.1二十世紀(jì)早期,中國哈爾濱,俄式柱1890年,美國,可口可樂概述-定義2.1(advertising)是由已確定出資人通過各種媒介進(jìn)行的有關(guān)(商品、服務(wù)和觀點)的,通常是有償?shù)?、有組織的、綜合的、勸服性的活動。員的信息按照單 電視交通媒介劃分,可以分為傳、報紙、廣播、車體、雜志、等等。、概述-參與者2.1用戶、報紙、雜志電視、廣播主與計算2.22.2.12.2.2計算-定義2.2.1,又被稱作、互聯(lián)網(wǎng)等。它主要是指利用計算機(jī)聯(lián)結(jié)而形成的信息通訊網(wǎng)絡(luò)作為,采用相關(guān)的電子多技術(shù)設(shè)形式。計制

14、作,并通過計算機(jī)的-主要形式2.2.1與用戶接觸的形式有多重多樣的選擇,并且隨著互聯(lián)網(wǎng)的發(fā)展變得越來越豐富。(1)橫幅形式。橫幅固定的版面。(banner ad)。這是展示一般是嵌入在頁面中相對固中最傳統(tǒng)也是最典型的置的圖片,需要占據(jù)-主要形式2.2.1(2)文字鏈(textual ad)。這種的素材形式是一段到內(nèi)容主落地頁的文字,在搜索中為主流形式,一般穿插在大量條目中。搜索投放引擎可以靈活決定是否投出該文字鏈,以及投出的條目數(shù)。-主要形式(rich media ad)。這類2.2.1(3)富往往是利用視覺沖擊力較強(qiáng)的表現(xiàn)形式,在不占用固定版面位置的情況下,向用戶侵入式地投送素材。富常見的形

15、式有彈窗、對聯(lián)、全屏等。它比較適合在高質(zhì)量的做一些品牌性質(zhì)比較強(qiáng)的投放,但是對用戶的使用體驗往往影響也較大。-主要形式2.2.1(4)的間隙位置的不同,(的ad)。隨著也成為互聯(lián)網(wǎng)的快速發(fā)展,在的一種重要形式。根據(jù)流又可以分為前插片、后插片、暫停等類型。視頻視由于載體的獨特性質(zhì),其效果和。創(chuàng)意比較類似于線下的電-主要形式2.2.1(5)社交(social ad)。社交的興起給的和能力都賦予了新的空間。社交中最典型的形式是在社交”是兩個不同信息流中的?!吧缃弧迸c“社交中的的概念,如在社交并不因為處于社交通過用戶的擴(kuò)散式頁面上競價售賣的文字鏈或橫幅,其本質(zhì)中有太大的變化。社交獲得更大的影響力和口碑

16、。希望達(dá)到的效果是-主要形式(mobile ad)。移動互聯(lián)網(wǎng)在近幾年爆發(fā)式地增長,2.2.1(6)移動并且大有取代桌面互聯(lián)網(wǎng)之勢。嚴(yán)格來說,移動互聯(lián)網(wǎng)上的形式與桌面電腦上的沒有本質(zhì)的區(qū)別,不過由于移動設(shè)備上應(yīng)用的大量普及,也由Web的頁面上搬進(jìn)了應(yīng)用里。目前移動典型的形式有開屏、插屏、通知等等。-主要形式2.2.1(7)郵件定向(Direct Marketing,EDM)。這是通過電子郵件的方式向目標(biāo)用戶傳遞推廣信息的一種。與上面各種形式都不同,EDM 是一種主動的形式,它不需要等到用戶接觸的機(jī)會出現(xiàn)時才地提供,而是可以隨時向認(rèn)為合適的用戶推廣信息。2.2.2 計算-定義定義1 “Findt

17、hebestmatchbetweenagivenuserinagivencontextandasuitableadvertisement.”定義2AndreiBroder “計算的,是列用戶和環(huán)境的組合找到最合適的告活動的利潤?!蓖斗挪呗砸詢?yōu)化整體廣2.2.2 計算-形式化將計算問題轉(zhuǎn)化為數(shù)學(xué)上可以優(yōu)化的目標(biāo)才能利用“計算技術(shù)” 來解決。把它用下面的最優(yōu)化問題來表達(dá):我們優(yōu)化的目標(biāo)就是在這T次展示上的總收入(r)與總成本(q)的差,即活動的利潤。進(jìn)一步考慮收入與成本具體依賴的因素,上面的優(yōu)化問題可以寫成:表達(dá)式中的a、u、c三個變量,分別代表、用戶與環(huán)境,即活動的三個參與主體。2.2.2 計算

18、收入分解形態(tài),我們能夠主動優(yōu)化-對于一個市場中具體的的往往是收入而非成本,因此主要關(guān)注收入優(yōu)化的部分。在一次展現(xiàn)頁展示產(chǎn)生后,有可能發(fā)生哪些后續(xù)行為呢?落地頁轉(zhuǎn)化頁點擊轉(zhuǎn)化主üü點擊率(ClickThroughRate,CTR)轉(zhuǎn)化率(Conversion Rate,CVR)2.2.2 計算收入分解-按照和主上的行為回報r進(jìn)行分解,是實踐中比較合理且容易操作的方式:ååTi =1Ti =1m(a)n(a,u ) =,u,cr(a,u,c)iiiiiiii表達(dá)式中的表示點擊率,表示點擊價值,這兩部分的乘積定量地表示了某次或若干次展示的期望,其中前一部分描述的是發(fā)生在上的行為,后一部分描述的是發(fā)生在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論