




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第四章
數(shù)據(jù)處理與應(yīng)用1、常用表格數(shù)據(jù)的處理2、大數(shù)據(jù)處理3、大數(shù)據(jù)典型應(yīng)用學(xué)習(xí)目標(biāo):
1、文本數(shù)據(jù)處理、分析及應(yīng)用2、了解數(shù)據(jù)可視化的作用、基本方法和常用工具3、能發(fā)現(xiàn)數(shù)據(jù)中隱藏的特征、關(guān)系和模式文本數(shù)據(jù)處理是大數(shù)據(jù)處理的重要分支之一,目的是從大規(guī)模的文本數(shù)據(jù)中提取出符合需要的、感興趣的和隱藏的信息。目前,文本數(shù)據(jù)處理主要應(yīng)用在搜索引擎、情報(bào)分析、自動(dòng)摘要、自動(dòng)校對(duì)、論文查重、文本分類、垃圾郵件過濾、機(jī)器翻譯、自動(dòng)應(yīng)答等方面。文本處理數(shù)據(jù)文本處理數(shù)據(jù)使用百度搜索“春節(jié)”,如圖所示,找到相關(guān)結(jié)果約100,000,000個(gè),這些返回的結(jié)果數(shù)據(jù)對(duì)“春節(jié)”的關(guān)鍵特征描述是什么?如何處理這些數(shù)據(jù)才能獲得答案?
--要提煉對(duì)“春節(jié)”的關(guān)鍵特征描述,需要采集返回結(jié)果頁面中的文本數(shù)據(jù)進(jìn)行分析文本處理數(shù)據(jù)文本處理的一般過程1、中文分詞(1)基于詞典的分詞方法(2)基于統(tǒng)計(jì)的分詞方法(3)基于規(guī)則的分詞方法2、特征提?。?)標(biāo)簽云文本數(shù)據(jù)分析與應(yīng)用
標(biāo)簽云將關(guān)鍵詞按照一定的順序和規(guī)律排列,并以文字大小的形式代表詞語的重要性。是文本可視化的一種方式,文本可視化將文本中復(fù)雜的或者難以通過文字表達(dá)的內(nèi)容和規(guī)律以視覺符號(hào)的形式表達(dá)出來。文本數(shù)據(jù)分析與應(yīng)用(2)文本情感分析
文本情感分析是指通過計(jì)算機(jī)技術(shù)對(duì)文本的主觀性、觀點(diǎn)、情緒、極性進(jìn)行挖掘和分析,對(duì)文本的情感傾向做出分類判斷。主要應(yīng)用于網(wǎng)絡(luò)輿情監(jiān)控、用戶評(píng)論與決策、信息預(yù)測(cè)等眾多領(lǐng)域。數(shù)據(jù)可視化閱讀教材133-138頁,回答問題?1.什么是可視化?2.可視化的作用?3.可視化的基本方法?什么是數(shù)據(jù)可視化
以圖形、圖像和動(dòng)畫等方式更加直觀生動(dòng)地呈現(xiàn)數(shù)據(jù)及數(shù)據(jù)分析結(jié)果,揭示數(shù)據(jù)之間的關(guān)系、趨勢(shì)和規(guī)律等表達(dá)方式??梢暬淖饔?.快捷觀察與追蹤數(shù)據(jù)2.實(shí)時(shí)分析數(shù)據(jù)可視化的作用3.增強(qiáng)數(shù)據(jù)的解釋力與吸引力可視化的作用可視化的基本方法1.有關(guān)時(shí)間趨勢(shì)的可視化可視化的基本方法2.有關(guān)比例的可視化3.有關(guān)關(guān)系的可視化可視化的基本方法4.有關(guān)差異的可視化可視化的基本方法可視化的基本方法5.有關(guān)空間關(guān)系的可視化可視化的工具大數(shù)據(jù)魔鏡(免費(fèi)的大數(shù)據(jù)可視化分析工具)Gephi(動(dòng)態(tài)和分層圖的交互可視化與探測(cè)開源工具)Tableau(實(shí)時(shí)可視化分析)PythonR(用于統(tǒng)計(jì)分析,圖形表示和報(bào)告的編程語言和軟件環(huán)境)D3.js(D3是最流行的可視化庫之一)Highcharts(用純JavaScript編寫的一個(gè)圖表庫)GoogleCharts(提供的一項(xiàng)動(dòng)態(tài)生成圖表的服務(wù))??梢暬牡湫桶咐?)“巴士群”現(xiàn)象當(dāng)一輛巴士被延遲,就會(huì)導(dǎo)致多輛巴士在同一時(shí)間到站。把它變成一個(gè)互動(dòng)游戲,我們所要做的就是觀察一個(gè)短暫的延遲如何使巴士在一段時(shí)間以后聚集起來。(2)世界上的語言它將世界上眾多語言用非語言的方法表現(xiàn)出來,一共有2678種??梢宰屇銥g覽使用共同語言的家庭,看看哪些語言是最常用的,并查看語言在世界各地的使用范圍。可視化的典型案例(3)GoogleFlights上的美國感恩節(jié)這是由GoogleTrends驅(qū)動(dòng)的項(xiàng)目,它跟蹤感恩節(jié)前出發(fā)、到達(dá)和穿越美國的航班。可視化始于當(dāng)天很早的時(shí)間,隨著時(shí)間的推移,像播放電影一樣顯示在全國各地飛行中的航班??梢暬牡湫桶咐n堂練習(xí)1.文本數(shù)據(jù)處理的主要步驟包括:①數(shù)據(jù)分析②特征提?、鄯衷~④結(jié)果呈現(xiàn)⑤文本數(shù)據(jù)獲取下列文本數(shù)據(jù)處理順序正確的是()A.①⑤②③④B.②⑤③①④C.⑤①③②④D.⑤③②①④D課堂練習(xí)2.下列關(guān)于中文分詞方法的描述中,屬于基于詞典的分詞方法的是()A.在分析句子時(shí)與詞典中的詞語進(jìn)行對(duì)比,詞典中出現(xiàn)的就劃分為詞B.依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計(jì),同時(shí)出現(xiàn)的次數(shù)越高就越可能組成一個(gè)詞C.讓計(jì)算機(jī)模擬人的理解方式,根據(jù)大量的現(xiàn)有資料和規(guī)則進(jìn)行學(xué)習(xí),然后分詞D.依據(jù)詞語與詞語之間的空格進(jìn)行分詞
A課堂練習(xí)3.在中文文本分析中,一般不用做文本的特征項(xiàng)的是()A.字B.詞C.短語D.段落D課堂練習(xí)4.下列數(shù)據(jù)分析中可能涉及文本情感分析的是()A.博主地域分析B.微博評(píng)論內(nèi)容分析C.微博發(fā)布設(shè)備分析D.博主男女比例分析B課堂練習(xí)5.某文本數(shù)據(jù)集的標(biāo)簽云如圖所示,下列說法正確的是()A.對(duì)數(shù)據(jù)集中文本分詞后可直接創(chuàng)建標(biāo)簽云,無須特征提取B.標(biāo)簽云須顯示該數(shù)據(jù)集包含的全部詞語C.該數(shù)據(jù)集中,詞語“玩偶”比“注意力”的出現(xiàn)頻率高D.最能表現(xiàn)該數(shù)據(jù)集中文本特征的詞有“車頂”“玩偶”“路口”C課堂練習(xí)6.下列關(guān)于數(shù)據(jù)可視化的描述中,錯(cuò)誤的是()A.標(biāo)簽云是基于語句的文本內(nèi)容可視化B.數(shù)據(jù)可視化將數(shù)據(jù)以圖形圖像等形式表示C.數(shù)據(jù)可視化可以直觀的呈現(xiàn)數(shù)據(jù)中蘊(yùn)含的信息D.數(shù)據(jù)可視化增強(qiáng)了數(shù)據(jù)的解釋力與吸引力A課堂練習(xí)7.下列有關(guān)圖表類型的說法,錯(cuò)誤的是()A.有關(guān)時(shí)間趨勢(shì)的可視化可以采用折線圖B.有關(guān)比例的可視化可采用以餅圖、環(huán)形圖C.要探究一件事情變化時(shí)另一件事情是否會(huì)發(fā)生某種變化,可采用散點(diǎn)圖D.要探尋包含多種變量的對(duì)象與同類之間的差異和聯(lián)系,可采用雷達(dá)圖、面積圖D課堂練習(xí)8.下列有關(guān)可視化工具的說法,錯(cuò)誤的是()A.使用Python、R等語言可以編寫程序?qū)崿F(xiàn)數(shù)據(jù)的可視化B.Tableau主要用于實(shí)時(shí)可視化分析,僅能連接本地?cái)?shù)據(jù)C.Highcharts是基于HTML5技術(shù)的開源圖表庫,支持移動(dòng)端D.GoogleCharts是為瀏覽器與移動(dòng)設(shè)備定制的交互式圖表開發(fā)包B課堂練習(xí)9.某組織將關(guān)于春節(jié)期間人們主要支出的調(diào)查數(shù)據(jù)可視化,如圖所示,下列分析錯(cuò)誤的是()A.不同年齡段的人
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 民航機(jī)場(chǎng)行李搬運(yùn)與安全監(jiān)管協(xié)議
- 寵物銷售服務(wù)合同模板
- 監(jiān)控室接線員培訓(xùn)
- 樂博樂博培訓(xùn)
- 簡單急救知識(shí)培訓(xùn)
- AIDS合并結(jié)核的護(hù)理
- 幼兒園灶房食品安全培訓(xùn)
- 腫瘤免疫治療機(jī)制與應(yīng)用
- 撓骨中段骨折課件
- 文化創(chuàng)意產(chǎn)業(yè)園區(qū)創(chuàng)意產(chǎn)業(yè)園區(qū)發(fā)展規(guī)劃與實(shí)施路徑研究報(bào)告
- 新護(hù)士五年規(guī)范化培訓(xùn)手冊(cè)
- 《小學(xué)趣味語文》PPT課件(優(yōu)秀)
- 醫(yī)學(xué)免疫學(xué)和病原生物學(xué)理論知識(shí)考核試題及答案
- 勝保養(yǎng)操作手冊(cè)江鈴馭
- 疫苗及其制備技術(shù)課件
- 阿里巴巴公司價(jià)值觀實(shí)施細(xì)則
- 安全防范系統(tǒng)設(shè)計(jì)方案
- 人教版PEP初中八年級(jí)下冊(cè)英語全冊(cè)課件
- 《人衛(wèi)版第九版內(nèi)科學(xué)心力衰竭》課件PPT
- 中國監(jiān)察制度史
- 竣工驗(yàn)收證書(模板)
評(píng)論
0/150
提交評(píng)論