




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)處理+文本數(shù)據(jù)處理復(fù)習(xí)處據(jù)數(shù)理應(yīng)用與
大數(shù)據(jù)一一、大數(shù)據(jù)概念及思維數(shù)據(jù)體量巨大(Volumme)速度快(Velocity)數(shù)據(jù)類型多(Variety)價(jià)值密度低(Value)★大數(shù)據(jù):代表著數(shù)據(jù)量大、速度快、種類繁多的信息資產(chǎn),需要特定的技術(shù)和分析方法將其轉(zhuǎn)化為價(jià)值。結(jié)構(gòu)化——數(shù)據(jù)庫(kù)中數(shù)據(jù)非結(jié)構(gòu)化——word、ppt、圖片和視頻等半結(jié)構(gòu)化——電子郵件等大數(shù)據(jù)要分析的是全體數(shù)據(jù),而不是抽樣數(shù)據(jù)。對(duì)于數(shù)據(jù)不再追求精確性,而是能夠接受數(shù)據(jù)的混雜性。不一定強(qiáng)調(diào)對(duì)事物因果關(guān)系的探求,而是更加注重它們的相關(guān)性。對(duì)比項(xiàng)采集方法分析方法表示方法……大數(shù)據(jù)傳統(tǒng)數(shù)據(jù)采用自動(dòng)化方法采集數(shù)據(jù)采用分布式數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行處理PB(拍字節(jié))以上數(shù)量級(jí)表示GB(吉字節(jié))或TB(太字節(jié))表示采用手工方法采集數(shù)據(jù)大多采用關(guān)系型數(shù)據(jù)庫(kù)和并行數(shù)據(jù)倉(cāng)庫(kù)即可處理大數(shù)據(jù):認(rèn)識(shí)全面、信息詳盡傳統(tǒng)數(shù)據(jù):樣本隨機(jī)、結(jié)論不準(zhǔn)大數(shù)據(jù):關(guān)注關(guān)聯(lián),較為準(zhǔn)確傳統(tǒng)數(shù)據(jù):樣本少、局限多傳統(tǒng)數(shù)據(jù):容錯(cuò)低、數(shù)據(jù)量小大數(shù)據(jù):容錯(cuò)強(qiáng)、弱化個(gè)體樣本的影響二、大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別三、大數(shù)據(jù)對(duì)社會(huì)生活的影響1.大數(shù)據(jù)讓生活更便利——熱力圖,導(dǎo)航路況2.大數(shù)據(jù)讓決策更精準(zhǔn)——政府、教育、經(jīng)濟(jì)、衛(wèi)生等等領(lǐng)域3.大數(shù)據(jù)帶來(lái)新的就業(yè)需求——系統(tǒng)研發(fā)工程師、數(shù)據(jù)分析師等4.大數(shù)據(jù)帶來(lái)新的社會(huì)問(wèn)題——信息泄露、數(shù)據(jù)安全、個(gè)人隱私、倫理★下列關(guān)于大數(shù)據(jù)思維的描述,錯(cuò)誤的是()A.大數(shù)據(jù)時(shí)代,人們可以采集全體數(shù)據(jù)進(jìn)行分析,避免樣本不同導(dǎo)致結(jié)論不同B.基于大數(shù)據(jù)技術(shù),我們能夠接受數(shù)據(jù)的混雜性,個(gè)別數(shù)據(jù)的不準(zhǔn)確不影響數(shù)據(jù)分析C.數(shù)據(jù)總量變大會(huì)導(dǎo)致大量不相干的數(shù)據(jù)增加,大數(shù)據(jù)具有價(jià)值密度低的特點(diǎn)D.使用大數(shù)據(jù)思維,我們更強(qiáng)調(diào)事物因果關(guān)系的探求,而不僅僅是數(shù)據(jù)之間的相關(guān)性課堂練習(xí)D★下列數(shù)據(jù)中屬于大數(shù)據(jù)的是()①各地交通攝像頭記錄的全部數(shù)據(jù)②學(xué)生網(wǎng)上高考報(bào)名數(shù)據(jù)③電商平臺(tái)的用戶瀏覽、交易時(shí)產(chǎn)生的數(shù)據(jù)④全體手機(jī)用戶的聯(lián)網(wǎng)信息、實(shí)時(shí)定位數(shù)據(jù)A.①②③B.①②④C.①③④D.②③④C★當(dāng)人們?cè)谏缃黄脚_(tái)上表達(dá)自己對(duì)股票市場(chǎng)的情緒或觀點(diǎn)時(shí),美國(guó)華爾街的炒股高手們卻正在利用大數(shù)據(jù)技術(shù)分析人們的想法,先人一步預(yù)判市場(chǎng)走勢(shì),而且取得了不俗的收益。關(guān)于這一實(shí)例,下列說(shuō)法不正確的是()A.人們?cè)谏暇W(wǎng)獲取數(shù)據(jù)的同時(shí),本身也在產(chǎn)生數(shù)據(jù)B.每個(gè)人在社交平臺(tái)中發(fā)布的觀點(diǎn)等數(shù)據(jù)都蘊(yùn)含著巨大的價(jià)值C.用戶在網(wǎng)絡(luò)中瀏覽信息、發(fā)表觀點(diǎn)搜索信息時(shí)都有可能泄露個(gè)人隱私D.很多社交軟件都是依據(jù)采集到的個(gè)人用戶的網(wǎng)絡(luò)行為進(jìn)行“個(gè)性化推薦”課堂練習(xí)B
大數(shù)據(jù)處理二★分——將問(wèn)題分解為規(guī)模更小的子問(wèn)題★治——將規(guī)模更小的子問(wèn)題逐個(gè)擊破★合——將已解決的子問(wèn)題合并,最終得出原問(wèn)題的解一、大數(shù)據(jù)處理的分治思想大數(shù)據(jù)處理靜態(tài)數(shù)據(jù)流數(shù)據(jù)圖數(shù)據(jù)批處理計(jì)算(Hadoop、spark等)流計(jì)算(storm、heron等)圖計(jì)算(pregel、graphx等)二、大數(shù)據(jù)處理分類★靜態(tài)數(shù)據(jù):在處理時(shí)已收集完成、在計(jì)算式不會(huì)發(fā)生改變的數(shù)據(jù)
★流數(shù)據(jù):是指不間斷地、持續(xù)地到達(dá)的實(shí)時(shí)數(shù)據(jù),隨著時(shí)間的流逝,流數(shù)據(jù)的價(jià)值也隨之降低,通過(guò)實(shí)時(shí)分析計(jì)算可以得到更有價(jià)值的分析的結(jié)果★圖數(shù)據(jù):以社交網(wǎng)絡(luò)、道路交通等數(shù)據(jù)為例的眾多以圖為數(shù)據(jù)呈現(xiàn)形式的數(shù)據(jù),或者轉(zhuǎn)化為圖之后再進(jìn)行分析的Hadoop是一個(gè)運(yùn)行于計(jì)算機(jī)集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于靜態(tài)數(shù)據(jù)的批處理計(jì)算。Spark是一種與hadoop相似的,應(yīng)用較廣的開(kāi)源分布式計(jì)算架構(gòu)。Spark啟用了內(nèi)存存儲(chǔ)中間結(jié)果,運(yùn)行速度比hadoop快。三、大數(shù)據(jù)處理分類——批處理計(jì)算三、大數(shù)據(jù)處理分類——Hadoop的組成HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),不需要運(yùn)行在昂貴并且高可靠的硬件上。比如:云盤(pán)、網(wǎng)盤(pán)的底層一般采用HDFS實(shí)現(xiàn)Hbase是一個(gè)高可靠,高性能,可伸縮,分布式的列式數(shù)據(jù)庫(kù),是谷歌BigTable數(shù)據(jù)庫(kù)的開(kāi)源實(shí)現(xiàn)。采用基于列的存儲(chǔ)方式,主要用來(lái)存儲(chǔ)非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。三、大數(shù)據(jù)處理分類——分布式并行計(jì)算模型MapReduceMapReduce主要用于處理大規(guī)模數(shù)據(jù)集的并行運(yùn)算,由Map(映射)和Reduce(歸納)兩部分組成。它的核心思想就是將任務(wù)分解并發(fā)到多個(gè)節(jié)點(diǎn)上進(jìn)行處理,最后匯總輸出。四、大數(shù)據(jù)處理整合2014年9月,Twitter大數(shù)據(jù)處理系統(tǒng)summingbird開(kāi)源新工具,它實(shí)現(xiàn)了批處理和流計(jì)算的整合(Hadoop+storm)。平臺(tái)的整合縮短了批處理與流處理之間的切換延時(shí)時(shí)間,有利于減少系統(tǒng)的開(kāi)銷,降低使用成本。課堂練習(xí)★下列關(guān)于Hadoop架構(gòu)的描述正確的是(
)A.是一個(gè)對(duì)大數(shù)據(jù)進(jìn)行聚合式處理的基礎(chǔ)軟件框架B.不能運(yùn)行于大規(guī)模計(jì)算機(jī)集群上C.采用NTFS文件系統(tǒng)管理數(shù)據(jù)文件D.采用MapReduce編程模型處理大規(guī)模數(shù)據(jù)集D★下列軟件主要用于進(jìn)行流計(jì)算的有(
)
A.HadoopB.Storm
C.PregelD.SparkB課堂練習(xí)★下列關(guān)于流數(shù)據(jù)的描述不正確的是(
)
A.數(shù)據(jù)在處理時(shí)已經(jīng)采集完成
B.數(shù)據(jù)價(jià)值隨著時(shí)間的流逝降低
C.實(shí)時(shí)分析流數(shù)據(jù)可以得到更有價(jià)值的結(jié)果
D.可以采用流計(jì)算進(jìn)行實(shí)時(shí)分析A課堂練習(xí)★下列關(guān)于大數(shù)據(jù)的說(shuō)法,正確的是()A.大數(shù)據(jù)包括靜態(tài)數(shù)據(jù)、流數(shù)據(jù)兩種類型B.大數(shù)據(jù)蘊(yùn)含著巨大的價(jià)值,但其價(jià)值密度較低C.分布式數(shù)據(jù)庫(kù)HBase主要用來(lái)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)D.大數(shù)據(jù)給生活帶來(lái)便利,也讓用戶的個(gè)人隱私受到更好的保護(hù)B課堂練習(xí)★下列應(yīng)用的數(shù)據(jù)屬于圖計(jì)算處理的是()A.某傳染病的傳播路徑B.高速公路每時(shí)每刻的車流量C.購(gòu)物網(wǎng)站的廣告推薦D.已經(jīng)搜集的某商品的月成交額A★下列選項(xiàng)中,哪個(gè)不是大數(shù)據(jù)的典型應(yīng)用()A.基于交易大數(shù)據(jù)分析用戶的購(gòu)買習(xí)慣B.基于搜索引擎的搜索關(guān)鍵詞分析社會(huì)熱點(diǎn)C.基于道路攝像頭、地感線圈等數(shù)據(jù)分析城市交通情況D.基于科技文獻(xiàn)數(shù)據(jù)庫(kù)檢索某一領(lǐng)域研究進(jìn)展D
文本處理三
為富不仁的老財(cái)主請(qǐng)教書(shū)先生為酒店寫(xiě)對(duì)聯(lián)。問(wèn)題提出一、文本數(shù)據(jù)處理指什么?實(shí)現(xiàn)任何程度或者級(jí)別的人工智能所必需的最大突破之一就是擁有可以處理文本數(shù)據(jù)的機(jī)器。值得慶幸的是,全世界文本數(shù)據(jù)的數(shù)量在最近幾年已經(jīng)實(shí)現(xiàn)指數(shù)級(jí)增長(zhǎng)。這也迫切需要人們從文本數(shù)據(jù)中挖掘新知識(shí)、新觀點(diǎn)。從社交媒體分析到風(fēng)險(xiǎn)管理和網(wǎng)絡(luò)犯罪保護(hù),處理文本數(shù)據(jù)已經(jīng)變得前所未有的重要。簡(jiǎn)書(shū)文章:https:///p/37e529c8baa9文本數(shù)據(jù)處理是大數(shù)據(jù)處理的重要分支之一,目的是從大規(guī)模的文本數(shù)據(jù)中提取出符合需要的、感興趣的和隱藏的信息。目前,文本數(shù)據(jù)處理主要應(yīng)用在搜索引擎、情報(bào)分析、自動(dòng)摘要、自動(dòng)校對(duì)、論文查重、文本分類、垃圾郵件過(guò)濾、機(jī)器翻譯、自動(dòng)應(yīng)答等方面。二、文本數(shù)據(jù)處理的一般過(guò)程據(jù)資料表明,非結(jié)構(gòu)化文本數(shù)據(jù)占文本數(shù)據(jù)總量的80%以上,而計(jì)算機(jī)只認(rèn)識(shí)“符號(hào)語(yǔ)言”,并不能直接處理非結(jié)構(gòu)化形式的“自然語(yǔ)言”。非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)分詞數(shù)據(jù)分析文本數(shù)據(jù)源特征提取結(jié)果呈現(xiàn)三、文本數(shù)據(jù)處理——分詞(1)基于詞典的分詞方法,也稱作基于字符匹配的分詞方法,即在分析句子時(shí)與詞典中的詞語(yǔ)進(jìn)行對(duì)比,詞典中出現(xiàn)的就劃分為詞。例如:Python中文分詞模塊jieba。importjiebadata=“今天是2035年1月1日,星期一,天氣晴朗!"jg=jieba.cut(data,cut_all=False)jg="/".join(jg)#結(jié)果顯示print(jg)1.jg=jieba.cut(待分詞對(duì)象,cut_all=True),全模式2.jg=jieba.cut(待分詞對(duì)象,cut_all=False),精確模式3.jg=jieba.cut_for_search(待分詞對(duì)象),搜索引擎模式三、文本數(shù)據(jù)處理——分詞(2)基于統(tǒng)計(jì)的分詞方法,統(tǒng)計(jì)分詞的思想是依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計(jì),同時(shí)出現(xiàn)的次數(shù)越高就越可能組成一個(gè)詞。在實(shí)際應(yīng)用中,一般是將其與基于詞典的分詞方法結(jié)合使用。(3)基于規(guī)則的分詞方法,通過(guò)讓計(jì)算機(jī)模擬人的理解方式,根據(jù)大量的現(xiàn)有資料和規(guī)則進(jìn)行學(xué)習(xí),達(dá)到對(duì)文字進(jìn)行分詞的效果。由于中文語(yǔ)言知識(shí)的籠統(tǒng)性、復(fù)雜性,這種分詞方法目前還處于試驗(yàn)階段。名稱簡(jiǎn)介Jieba分詞Python開(kāi)源項(xiàng)目IKAnalyzerJava開(kāi)源分詞工具包NLPIR北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室,非商業(yè)應(yīng)用免費(fèi)語(yǔ)言云哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心,在線API接口調(diào)用BosonNLP玻森中文語(yǔ)義開(kāi)放平臺(tái),在線API接口或庫(kù)調(diào)用四、文本數(shù)據(jù)處理——特征提取
※特征詞:
在中文文本分析中可以采用字、詞或短語(yǔ)作為表示文本的特征項(xiàng)。目前,大多數(shù)中文文本分析中都采用詞作為特征項(xiàng),這種詞稱作特征詞。
※特征提?。?/p>
通??芍苯佑梅衷~算法和詞頻統(tǒng)計(jì)得出的結(jié)果作為特征詞。通過(guò)特征提取來(lái)找出最具代表性、最有效的文本特征,從而減少特征詞的數(shù)量,提高文本處理的速度和效率。
※特征提取方式:
特征提取一般采用的方式為根據(jù)專家的知識(shí)挑選有價(jià)值的特征,或者用數(shù)學(xué)建模的方法構(gòu)造評(píng)估函數(shù)自動(dòng)選取特征等。目前大多采用評(píng)估函數(shù)進(jìn)行特征提取的方式,評(píng)估函數(shù)大多是基于概率統(tǒng)計(jì)設(shè)計(jì)的,這就需要用龐大的訓(xùn)練數(shù)據(jù)集才能獲得對(duì)分類起關(guān)鍵作用的特征。隨著深度學(xué)習(xí)、大數(shù)據(jù)分析等技術(shù)的發(fā)展,文本特征提取將更加準(zhǔn)確、科學(xué)。五、文本數(shù)據(jù)處理——分析與應(yīng)用(1)標(biāo)簽云(文本可視化的一種方式)標(biāo)簽云用詞頻表現(xiàn)文本特征,將關(guān)鍵詞按照一定的順序和規(guī)律排列,如頻度遞減、字母順序等,并以文字大小的形式代表詞語(yǔ)的重要性,如圖所示標(biāo)簽云廣泛應(yīng)用于報(bào)紙、雜志等傳統(tǒng)媒體和互聯(lián)網(wǎng)。五、文本數(shù)據(jù)處理——分析與應(yīng)用(2)文本情感分析,指通過(guò)計(jì)算機(jī)技術(shù)對(duì)文本的主觀性、觀點(diǎn)、情緒、極性進(jìn)行挖掘和分析,對(duì)文本的情感傾向做出分類判斷。文本情感分析作為一個(gè)多學(xué)科交叉的研究領(lǐng)域,涉及自然語(yǔ)言處理、信息檢索、機(jī)器學(xué)習(xí)、人工智能等領(lǐng)域。文本情感分析根據(jù)分析的粒度不同,分為詞語(yǔ)級(jí)、語(yǔ)句級(jí)、整篇文章級(jí)三類。詞語(yǔ)級(jí)是在分詞的基礎(chǔ)上,根據(jù)情感詞典進(jìn)行特征提取與分類,再分別給特征詞賦予權(quán)重進(jìn)行統(tǒng)計(jì)分析。特征詞的權(quán)重,例如,滿意+5;差-5等。
文本情感分析主要應(yīng)用于網(wǎng)絡(luò)輿情監(jiān)控、用戶評(píng)論分析與決策、信息預(yù)測(cè)等眾多領(lǐng)域。1.文本數(shù)據(jù)處理的主要步驟包括:①數(shù)據(jù)分析
②特征提取
③分詞
④結(jié)果呈現(xiàn)
⑤文本數(shù)據(jù)獲取下列文本數(shù)據(jù)處理順序正確的是(
)A.①⑤②③④
B.②⑤③①④C.⑤①③②④D.⑤③②①④2.下列關(guān)于中文分詞方法的描述中,屬于基于詞典的分詞方法的是(
)A.在分析句子時(shí)與詞典中的詞語(yǔ)進(jìn)行對(duì)比,詞典中出現(xiàn)的就劃分為詞B.依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計(jì),同時(shí)出現(xiàn)的次數(shù)越高就越可能組成一個(gè)詞C.讓計(jì)算機(jī)模擬人的理解方式,根據(jù)大量的現(xiàn)有資料和規(guī)則進(jìn)行學(xué)習(xí),然后分詞D.依據(jù)詞語(yǔ)與詞語(yǔ)之間的空格進(jìn)行分詞DA課堂練習(xí)3.在中文文本分析中,一般不用做文本的特征項(xiàng)的是(
)A
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生態(tài)農(nóng)業(yè)廠房租賃安全及環(huán)保標(biāo)準(zhǔn)合同
- 生態(tài)旅游區(qū)施工現(xiàn)場(chǎng)勞務(wù)合作合同
- 潮汕職院劉艷紅參賽作品教育推廣與合作合同
- 住宅小區(qū)拆遷安置補(bǔ)償合同范本
- 車輛快遞運(yùn)輸與環(huán)保服務(wù)協(xié)議
- 智能設(shè)備行業(yè)數(shù)字化轉(zhuǎn)型與政策監(jiān)管研究-洞察闡釋
- 餐廳廚師勞動(dòng)合同(含技術(shù)考核)
- 高新技術(shù)產(chǎn)業(yè)園區(qū)車位租賃與智能充電服務(wù)合同
- 拆除工程安全施工及質(zhì)量保證協(xié)議
- 3D打印設(shè)備行業(yè)代理銷售合作協(xié)議書(shū)
- DB37-T 2671-2019 教育機(jī)構(gòu)能源消耗定額標(biāo)準(zhǔn)-(高清版)
- 部編版小學(xué)道德與法治三年級(jí)下冊(cè)期末質(zhì)量檢測(cè)試卷【含答案】5套
- 斷親協(xié)議書(shū)范本
- 信息系統(tǒng)項(xiàng)目管理師論文8篇
- (完整版)重大危險(xiǎn)源清單及辨識(shí)表
- 試驗(yàn)室儀器設(shè)備檢定校準(zhǔn)證書(shū)和測(cè)試報(bào)告確認(rèn)表(公司范本)
- 《傳媒翻譯》教學(xué)大綱
- 新工科的建設(shè)和發(fā)展思考ppt培訓(xùn)課件
- [北京]大型房地產(chǎn)開(kāi)發(fā)項(xiàng)目成本測(cè)算實(shí)例及表格(全套)
- 電荷耦合器件(CCD)介紹和工作原理
- JJF(閩) 1101-2020 在線式CCD圖像尺寸測(cè)量系統(tǒng)校準(zhǔn)規(guī)范
評(píng)論
0/150
提交評(píng)論