




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第5章大數(shù)據(jù)分析與挖掘大數(shù)據(jù)為人服務,為企業(yè)和個人提供決策參考,讓人少犯錯,更聰明。這方面主要體現(xiàn)在精準營銷、用戶需求、市場拓展、趨勢預測、資源配置、產(chǎn)品升級。大數(shù)據(jù)為機器服務。大數(shù)據(jù)可以訓練機器設備、人工智能,讓機器更聰明。這方面主要體現(xiàn)在物聯(lián)設備、人工智能訓練、搜索引擎、信息分發(fā)平臺的推送機制。大數(shù)據(jù)分析概述
數(shù)據(jù)分析是大數(shù)據(jù)價值鏈中的一個重要環(huán)節(jié),其目標是提取海量數(shù)據(jù)中的有價值的內(nèi)容,找出內(nèi)在的規(guī)律,從而幫助人們作出最正確的決策。1、認清事實2、找出規(guī)律3、預測未來4、洞悉關系
大數(shù)據(jù)分析的主要任務主要有:第一類是預測任務,第二類是描述任務,具體可分為分類、回歸、關聯(lián)分析、聚類分析、推薦系統(tǒng)、異常檢測、鏈接分析等幾種。
大數(shù)據(jù)分析主要有描述性統(tǒng)計分析、探索性數(shù)據(jù)分析以及驗證性數(shù)據(jù)分析等。
描述性統(tǒng)計,是指運用制表和分類,圖形以及計算概括性數(shù)據(jù)來描述數(shù)據(jù)特征的各項活動。
驗證性數(shù)據(jù)分析注重對數(shù)據(jù)模型和研究假設的驗證,側重于已有假設的證實或證偽。假設檢驗是根據(jù)數(shù)據(jù)樣本所提供的證據(jù),肯定或否定有關總體的聲明。
探索性數(shù)據(jù)分析是指為了形成值得假設的檢驗而對數(shù)據(jù)進行分析的一種方法,是對傳統(tǒng)統(tǒng)計學假設檢驗手段的補充。
大數(shù)據(jù)分析的內(nèi)容主要有數(shù)據(jù)挖掘算法、大數(shù)據(jù)預測性分析以及可視化分析等。數(shù)據(jù)挖掘算法大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法。
預測性分析
大數(shù)據(jù)分析最終要應用的領域之一就是預測性分析,從大數(shù)據(jù)中挖掘出特點,通過科學的建立模型,之后便可以通過模型帶入新的數(shù)據(jù),從而預測未來的數(shù)據(jù)。
可視化分析大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的要求都是能夠可視化分析,因為可視化分析能夠直觀地呈現(xiàn)大數(shù)據(jù)特點。大數(shù)據(jù)分析的方法
分類分類是一種重要的數(shù)據(jù)挖掘技術。分類的目的是根據(jù)數(shù)據(jù)集的特點構造一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把未知類別的樣本映射到給定類別中的某一個。
簡言之,確定對象屬于哪個預定義的目標類。
學術一點:通過學習得到一個目標函數(shù)f(分類模型),把每個屬性集x映射到一個預先定義的類標號y。
雖然我們?nèi)祟惗疾幌矚g被分類,被貼標簽,但數(shù)據(jù)研究的基礎正是給數(shù)據(jù)“貼標簽”進行分類。類別分得越精準,我們得到的結果就越有價值。
例如,在家長眼里乖巧的小明是一個好孩子,同時家長也想確保他會在學校做一名“好學生”而不是“壞學生”。這里的區(qū)分“好學生”和“壞學生”就是一個分類任務。
分類是一個有監(jiān)督的學習過程,目標數(shù)據(jù)庫中有哪些類別是已知的,分類過程需要做的就是把每一條記錄歸到對應的類別之中。由于必須事先知道各個類別的信息,并且所有待分類的數(shù)據(jù)條目都默認有對應的類別,因此分類算法也有其局限性。常用的分類算法包括:NBC(NaiveBayesianClassifier,樸素貝葉斯分類)算法、LR(LogisticRegress,邏輯回歸)算法、ID3(IterativeDichotomiser3迭代二叉樹3代)決策樹算法、C4.5決策樹算法、C5.0決策樹算法、SVM(SupportVectorMachine,支持向量機)算法、KNN(K-NearestNeighbor,K最近鄰近)算法、ANN(ArtificialNeuralNetwork,人工神經(jīng)網(wǎng)絡)算法等。
“別和其他壞學生在一起,否則你也會和他們一樣。”
——家長這句話通常來自家長的勸誡,但它透露著不折不扣的近鄰思想。在分類算法中,K最近鄰是最普通也是最好理解的算法。它的主要思想是通過離待預測樣本最近的K個樣本的類別來判斷當前樣本的類別。家長們希望孩子成為好學生,可能為此不惜重金購買學區(qū)房或者上私立學校,一個原因之一是這些優(yōu)秀的學校里有更多的優(yōu)秀學生。與其他優(yōu)秀學生走的更近,從K最近鄰算法的角度來看,就是讓目標樣本與其他正樣本距離更近、與其他負樣本距離更遠,從而使得其近鄰中的正樣本比例更高,更大概率被判斷成正樣本。條件概率是指事件A在另外一個事件B已經(jīng)發(fā)生條件下的發(fā)生概率,記P(A|B)左邊為一個布袋,里邊裝有5個球,其中2個藍色球,3個紅色球。每次隨機從布袋里拿一顆球(不放回),求連續(xù)2次拿到籃球的概率是多少?拿到2個籃球的概率即P(AB),事件A為第一次拿到籃球的概率,這里為P(A)=2/5;事件B為第二次拿到籃球的概率,這里為在第一次拿到籃球的條件下,第二次拿到籃球的條件概率P(B|A)。貝葉斯定理是關于隨機事件A和B的條件概率(或邊緣概率)的一則定理。貝葉斯定理之所以有用,是因為我們在生活中經(jīng)常遇到這種情況:我們可以很容易直接得出P(A|B),P(B|A)則很難直接得出,但我們更關心P(B|A),貝葉斯定理就為我們打通從P(A|B)獲得P(B|A)的道路。
樸素貝葉斯的思想基礎是這樣的:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。
通俗來說,在街上看到一個黑人,猜這哥們哪里來的,十有八九猜非洲。為什么呢?因為黑人中非洲人的比率最高。
“根據(jù)以往抓獲的情況來看,十個壞學生有九個愛打架?!?/p>
——教導主任說這句話的訓導主任很有可能就是通過樸素貝葉斯算法來區(qū)分好、壞學生?!笆畟€壞學生有九個愛打架”就意味著“壞學生”打架的概率P(打架|壞學生)=0.9,假設根據(jù)訓導處歷史記錄壞學生占學生總數(shù)P(壞學生)=0.1、打架發(fā)生的概率是P(打架)=0.09,那么這時如果發(fā)生打架事件,就可以通過貝葉斯公式判斷出當事學生是“壞學生”的概率P(壞學生|打架)=P(打架|壞學生)×P(壞學生)÷P(打架)=1.0,即該學生100%是“壞學生”。某人身高6英尺、體重130磅,腳掌8英寸,請問該人是男是女?樸素貝葉斯分類常用于文本分類,尤其是對于英文等語言來說,分類效果很好。它常用于垃圾文本過濾、情感預測、推薦系統(tǒng)等。
“上課講話扣1分,不交作業(yè)扣2分,比賽得獎加5分?!?/p>
——紀律委員班上的紀律委員既勤懇又嚴格,總是在小本本上記錄同學們的每一項行為得分。在完成對每一項行為的評分后,紀律委員根據(jù)最終加總得到的總分來判斷每位同學的表現(xiàn)好壞。上述的過程就非常類似于邏輯回歸的算法原理。我們稱邏輯回歸為一種線性分類器,其特征就在于自變量x和因變量y之間存在類似y=ax+b的一階的、線性的關系。假設“上課講話”、“不交作業(yè)”和“比賽得獎”的次數(shù)分別表示為x1、x2、和x3,且每個學生的基礎分為0,那么最終得分y=-1*x1-2*x2+5*x3+0。其中-1、-2和5分別就對應于每種行為在“表現(xiàn)好”這一類別下的權重。
““我想個辦法把表現(xiàn)差的學生都調到最后一排?!?/p>
——班主任即使學生們再不情愿,班主任也有一萬個理由對他們的座位作出安排。對于“壞學生”,一些班主任的采取的做法是盡量讓他們與“好學生”保持距離,即將“壞學生”們都調到教室的最后一排。這樣一來,就相當于在學生們之間畫了一條清晰的分割界線,一眼就能區(qū)分出來。支持向量機的思想就是如此。支持向量機致力于在正負樣本的邊界上找到一條分割界線(超平面),使得它能完全區(qū)分兩類樣本的同時,保證劃分出的間隔盡量的大。對于班主任來講,調換學生們的座位就相當于使用了核函數(shù),讓原本散落在教室里的“好”、“壞”學生從線性不可分變得線性可分了。人工神經(jīng)網(wǎng)絡,簡稱神經(jīng)網(wǎng)絡或類神經(jīng)網(wǎng)絡,是一種模仿生物神經(jīng)網(wǎng)絡結構和功能的數(shù)學模型或計算模型,用于對函數(shù)進行估計或近似。神經(jīng)網(wǎng)絡由大量的人工神經(jīng)元聯(lián)結進行計算。大多數(shù)情況下人工神經(jīng)網(wǎng)絡能在外界信息的基礎上改變內(nèi)部結構,是一種自適應系統(tǒng)。人工神經(jīng)網(wǎng)絡由很多的層組成,最前面這一層叫輸入層,最后面一層叫輸出層,最中間的層叫隱層,并且每一層有很多節(jié)點,節(jié)點之間有邊相連的,每條邊都有一個權重。對于文本來說輸入值是每一個字符,對于圖片來說輸入值就是每一個像素。垃圾郵件過濾器是一個機器學習程序,通過學習用戶標記好的垃圾郵件和常規(guī)非垃圾郵件示例,它可以學會標記垃圾郵件。系統(tǒng)用于學習的示例稱為訓練集。在此案例中,任務(T)是標記新郵件是否為垃圾郵件,經(jīng)驗(E)是訓練數(shù)據(jù),性能度量(P)需要定義?;貧w在統(tǒng)計學中,回歸分析指的是確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法。
線性回歸是最為人熟知的建模技術之一。線性回歸通常是人們在學習預測模型時首選的少數(shù)幾種技術之一。在該技術中,因變量是連續(xù)的,自變量(單個或多個)可以是連續(xù)的,也可以是離散的。線性回歸用于根據(jù)連續(xù)變量估算實際值(房屋成本,通話成本,總銷售額等)。在這里,我們通過擬合一條直線來建立自變量和因變量之間的關系。該最佳擬合線稱為回歸線,并由線性方程Y=a*X+b表示。我們確定了線性方程y=0.2811x+13.9的最佳擬合線?,F(xiàn)在使用這個方程,我們可以求出重量,而知道一個人的身高?;貧w問題根據(jù)先前觀察到的數(shù)據(jù)預測數(shù)值;回歸的例子包括房價預測、股價預測、身高-體重預測等。線性回歸主要有兩種類型:簡單線性回歸和多元線性回歸。簡單線性回歸的特征在于一個自變量。而多元線性回歸(顧名思義)的特征是多個(超過1個)的自變量。在找到最佳擬合線時,可以擬合多項式或曲線回歸。這些被稱為多項式或曲線回歸。
聚類聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。聚類自動尋找并建立分組規(guī)則的方法,通過判斷樣本之間的相似性,把相似樣本劃分在一個簇中。
與分類不同,聚類的目的就是實現(xiàn)對樣本的細分,使得同組內(nèi)的樣本特征較為相似,不同組的樣本特征差異較大。聚類是一種無監(jiān)督的學習,在事先不知道數(shù)據(jù)分類的情況下,根據(jù)數(shù)據(jù)之間的相似程度進行劃分,目的是使同類別的數(shù)據(jù)對象之間的差別盡量小,不同類別的數(shù)據(jù)對象之間的差別盡量大。
聚類的商業(yè)領域應用包括:按照不同主題對文檔、音樂、電影進行分組,或基于常見的購買行為,發(fā)現(xiàn)有相同興趣愛好的顧客,并以此構建推薦引擎。
實現(xiàn)給定一個n個對象的合集,劃分方法構建數(shù)據(jù)的k個分區(qū),其中每個分區(qū)代表一個簇,并且k《n,也就是說把數(shù)據(jù)劃分為k個組,使的每個組至少包含一個對象。換就話說就是劃分方法在數(shù)據(jù)集上進行一層劃分,典型的,基本劃分方法采取互斥的簇劃分,即每個對象的必須恰好屬于一組。
聚類的商業(yè)領域應用包括:按照不同主題對文檔、音樂、電影進行分組,或基于常見的購買行為,發(fā)現(xiàn)有相同興趣愛好的顧客,并以此構建推薦引擎。
在生物上,聚類分析被用來對動植物和基因進行分類,以獲取對種群固有結構的認識。
在保險行業(yè)上,聚類分析可以通過平均消費來鑒定汽車保險單持有者的分組,同時可以根據(jù)住宅類型、價值、地理位置來鑒定城市的房產(chǎn)分組。
在電子商務上,聚類分析通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,從而幫助電子商務企業(yè)了解自己的客戶,向客戶提供更合適的服務。
與分類不同,聚類所要求劃分的類是未知的。
關聯(lián)規(guī)則關聯(lián)規(guī)則就是由關聯(lián)的規(guī)則,它的定義是:兩個不相交的非空集合X、Y,如果由X->Y,就說X->Y是一條關聯(lián)規(guī)則。其中X表示的是兩個互斥事件,X稱為前因(antecedent),Y稱為后果(consequent),上述關聯(lián)規(guī)則表示X會導致Y。
在實際應用中,“商品銷售”講述了產(chǎn)品之間的關聯(lián)性,如果大量的數(shù)據(jù)表明,消費者購買A產(chǎn)品的同時,也會同時購買B產(chǎn)品。那么A和B之間存在關聯(lián)性,記為A->B。
使用關聯(lián)規(guī)則的過程主要包含以下四個步驟:(1)數(shù)據(jù)篩選,首先對數(shù)據(jù)進行清洗,清洗掉那些公共的項目,比如:熱門詞,通用詞(此步依據(jù)具體項目而定)。(2)根據(jù)支持度(support),從事務集合中找出頻繁項集(使用算法:Apriori算法,F(xiàn)P-Growth算法)。(3)根據(jù)置信度(confidence),從頻繁項集中找出強關聯(lián)規(guī)則(置信度閾值需要根據(jù)實驗或者經(jīng)驗而定)。(4)根據(jù)提升度(lift),從強關聯(lián)規(guī)則中篩選出有效的強關聯(lián)規(guī)則(提升度的設定需要經(jīng)過多次試驗確定)。大數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指在大量的數(shù)據(jù)中挖掘出有用信息,通過分析來揭示數(shù)據(jù)之間有意義的聯(lián)系、趨勢和模式。
數(shù)據(jù)挖掘是一門交叉學科。
數(shù)據(jù)挖掘可以分為兩類:直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘。(1)直接數(shù)據(jù)挖掘直接數(shù)據(jù)挖掘的目標是利用可用的數(shù)據(jù)建立一個模型,利用這個模型對剩余的數(shù)據(jù),對一個特定的變量進行描述。(2)間接數(shù)據(jù)挖掘間接數(shù)據(jù)挖掘的目標中沒有選出某一具體的變量,也不是用模型進行描述,而是在所有的變量中建立起某種關系。
數(shù)據(jù)挖掘技術
指為了完成數(shù)據(jù)挖掘任務所需要的全部技術,是數(shù)據(jù)挖掘方法的集合。在金融、零售等企業(yè)已廣泛采用數(shù)據(jù)挖掘技術,分析用戶的可信度和購物偏好等。數(shù)據(jù)挖掘應用在當今大數(shù)據(jù)時代下,數(shù)據(jù)挖掘應用到各種各樣的領域中,成為高科技發(fā)展的熱點問題。在軟件開發(fā)、醫(yī)療衛(wèi)生、金融、教育等方面都可以隨處看到數(shù)據(jù)挖掘的影子,可以使用數(shù)據(jù)挖掘技術發(fā)現(xiàn)大數(shù)據(jù)的內(nèi)在的巨大價值。(1)電子郵件系統(tǒng)中垃圾郵件的判斷(2)金融領域中金融產(chǎn)品的推廣營銷(3)商品銷售(4)疾病診斷(5)電子商務中的推薦系統(tǒng)數(shù)據(jù)挖掘算法K-Means算法
K-Means算法也叫作k均值聚類算法,它是最著名的劃分聚類算法,由于簡潔和效率使得它成為所有聚類算法中最廣泛使用的。決策樹算法決策樹算法是一種能解決分類或回歸問題的機器學習算法,它是一種典型的分類方法,最早產(chǎn)生于上世紀60年代。決策樹算法首先對數(shù)據(jù)進行處理,利用歸納算法生成可讀的規(guī)則和決策樹,然后使用決策對新數(shù)據(jù)進行分析。
決策樹的原理如下:(1)找到劃分數(shù)據(jù)的特征,作為決策點。(2)利用找到的特征對數(shù)據(jù)進行劃分成n個數(shù)據(jù)子集。(3)如果同一個子集中的數(shù)據(jù)屬于同一類型就不再劃分,如果不屬于同一類型,繼續(xù)利用特征進行劃分。(4)指導每一個子集的數(shù)據(jù)屬于同一類型停止劃分。
決策樹算法
某女,26歲,相親,提出的見面條件如下:
(1)年齡在30歲以下;
(2)長相中等以上;
(3)收入高,或者職業(yè)是公務員。KNN算法
KNN算法也叫作K最近鄰算法,是數(shù)據(jù)挖掘分類技術中最簡單的方法之一。所謂K最近鄰,就是k個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k個鄰居來代表。
KNN算法的實現(xiàn)主要有三個步驟:(1)給定待分類樣本,計算它與已分類樣本中的每個樣本的距離。(2)圈定與待分類樣本距離最近的K個已分類樣本,作為待分類樣本的近鄰。(3)根據(jù)這K個近鄰中的大部分樣本所屬的類別來決定待分類樣本該屬于哪個分類。遺傳算法遺傳算法模擬了自然選擇和遺傳中發(fā)生的繁殖、交配和基因突變現(xiàn)象,是一種采用遺傳結合、遺傳交叉變異及自然選擇等操作來生成實現(xiàn)規(guī)則的、基于進化理論的機器學習方法。遺傳算法的實現(xiàn)步驟如下:(1)隨機產(chǎn)生種群。(2)根據(jù)策略判斷個體的適應度,是否符合優(yōu)化準則,若符合,輸出最佳個體及其最優(yōu)解,結束;否則,進行下一步。(3)依據(jù)適應度選擇父母,適應度高的個體被選中的概率高,適應度低的個體被淘汰。(4)用父母的染色體按照一定的方法進行交叉,生成子代。(5)對子代染色體進行變異。(6)由交叉和變異產(chǎn)生新一代種群,返回步驟2,直到最優(yōu)解產(chǎn)生。神經(jīng)網(wǎng)絡算法
神經(jīng)網(wǎng)絡可以指向兩種,一個是生物神經(jīng)網(wǎng)絡,一個是人工神經(jīng)網(wǎng)絡。在這里專指人工神經(jīng)網(wǎng)絡。它是一種模仿動物神經(jīng)網(wǎng)絡行為特征,進行分布式并行信息處理的算法數(shù)學模型。人工神經(jīng)網(wǎng)絡算法的原理基于以下兩點:1.信息是通過神經(jīng)元上的興奮模式分布存儲在網(wǎng)絡上;2.信息處理是通過神經(jīng)元之間同時相互作用的動態(tài)過程來完成的。人工神經(jīng)網(wǎng)絡首先要以一定的學習準則進行學習,然后才能工作?,F(xiàn)以人工神經(jīng)網(wǎng)絡對于寫“A”、“B”兩個字母的識別為例進行說明,規(guī)定當“A”輸入網(wǎng)絡時,應該輸出“1”,而當輸入為“B”時,輸出為“0”。在這個結構中,網(wǎng)絡的最左邊一層被稱為輸入層,用input表示,其中的神經(jīng)元被稱為輸入神經(jīng)元。最右邊及輸出層包含輸出神經(jīng)元,用output表示。在這個例子中,只有一個單一的輸出神經(jīng)元,但一般情況下輸出層也會有多個神經(jīng)元。有多個輸出神經(jīng)元的神經(jīng)網(wǎng)絡。文本挖掘數(shù)據(jù)挖掘與分析的應用本章小結1)大數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進行分析。2)大數(shù)據(jù)分析包括:數(shù)據(jù)挖掘算法、大數(shù)據(jù)預測性分析、可視化分析等。3)數(shù)據(jù)挖掘是指在大量的數(shù)據(jù)中挖掘出有用信息,通過分析來揭示數(shù)據(jù)之間有意義的聯(lián)系、趨勢和模式。4)數(shù)據(jù)挖掘可以分為兩類:直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘。5)分類首先從數(shù)據(jù)中選出已經(jīng)分好類的訓練集,在該訓練集上運用數(shù)據(jù)挖掘技術,建立一個分類模型,再將該模型用于對沒有分類的數(shù)據(jù)進行分類。6)聚類是自動尋找并建立分組規(guī)則的方法,通過判斷樣本之間的相似性,把相似樣本劃分在一個簇中。它的目的就是實現(xiàn)對樣本的細分,使得同組內(nèi)的樣本特征較為相似,不同組的樣本特征差異較大。7)關聯(lián)規(guī)則就是由關聯(lián)的規(guī)則,它的定義是:兩個不相交的非空集合X、Y,如果由X->Y,就說X->Y是一條關聯(lián)規(guī)則。關聯(lián)規(guī)則的強度用支持度(support)和自信度(confidence)來描述。支持度和自信度越高,說明規(guī)則越強,關聯(lián)規(guī)則挖掘就是挖掘出滿足一定強度的規(guī)則。8)在當今大數(shù)據(jù)時代下,數(shù)據(jù)挖掘應用到各種各樣的領域中,成為高科技發(fā)展的熱點問題。在軟件開發(fā)、醫(yī)療衛(wèi)生、金融、教育等方面都可以隨處看到數(shù)據(jù)挖掘的影子。第6章大數(shù)據(jù)可視化數(shù)據(jù)可視化概述數(shù)字永遠是枯燥而抽象的,而圖形圖像卻充滿了生動性和表現(xiàn)力。數(shù)據(jù)可視化起源與發(fā)展
數(shù)據(jù)可視化,是關于數(shù)據(jù)視覺表現(xiàn)形式的科學技術研究,它為大數(shù)據(jù)分析提供了一種更加直觀的挖掘、分析與展示當代手段,從而讓大數(shù)據(jù)更有意義。在遠古時期,我們遙遠的祖先——智人就已經(jīng)學會畫畫,基于自己對周邊生活環(huán)境的認知,將人、鳥、獸、草、木等事物以及狩獵、耕種、出行、征戰(zhàn)、搏斗、祭祀等日?;顒涌坍嬙趲r石上、石壁上、洞穴里。而數(shù)據(jù)可視化的作品,最早可追溯到10世紀。當時一位不知名的天文學家繪制了一幅作品。隨著歐洲在14世紀開始進入了文藝復興時期,各種測量技術的出現(xiàn),在數(shù)學學科中出現(xiàn)了早期的數(shù)學坐標圖表,如笛卡爾解析幾何坐標系等。值得一提的是法國哲學家、數(shù)學家笛卡爾(1596-1650),他創(chuàng)立了解析幾何,將幾何曲線與代數(shù)方程相結合,為數(shù)據(jù)可視化的發(fā)展正式開啟了大門。到了18世紀,隨著社會的進一步發(fā)展與文字的廣泛應用,微積分,物理,化學,數(shù)學等都開始蓬勃發(fā)展,統(tǒng)計學也開始出現(xiàn)了萌芽。數(shù)據(jù)的價值開始為人們重視起來,人口、商業(yè)、農(nóng)業(yè)等經(jīng)驗數(shù)據(jù)開始被系統(tǒng)的收集整理,記錄下來,于是各種圖表和圖形也開始誕生。大數(shù)據(jù)可視化已經(jīng)注定成為可視化歷史中的新的里程碑,VR、AR、MR、全息投影…這些當下最火熱的數(shù)據(jù)可視化技術已經(jīng)被應用到游戲、房地產(chǎn)、教育等各行各業(yè)。
當前,在大數(shù)據(jù)的研究領域中,數(shù)據(jù)可視化是一個異常活躍的方面。一方面,數(shù)據(jù)可視化以數(shù)據(jù)挖掘、數(shù)據(jù)采集、數(shù)據(jù)分析為基礎;另一方面,它還是一種新的表達數(shù)據(jù)的方式,是對現(xiàn)實世界的抽象表達。數(shù)據(jù)可視化世界人口數(shù)據(jù)可視化城市污染數(shù)據(jù)可視化百度校園案件最早的數(shù)據(jù)可視化倫敦地鐵數(shù)據(jù)可視化倫敦地鐵數(shù)據(jù)可視化戰(zhàn)爭中的傷亡數(shù)據(jù)可視化動物研究數(shù)據(jù)可視化足球比賽
這就是數(shù)據(jù)被可視化之后的魅力,它們會產(chǎn)生邏輯、意義,變成更值得思考的東西。
隨著對大數(shù)據(jù)可視化認識的不斷加深,人們認為數(shù)據(jù)可視化一般分為三種不同的類型:科學可視化、信息可視化和可視化分析
科學可視化是數(shù)據(jù)可視化中的一個應用領域,主要關注空間數(shù)據(jù)與三維現(xiàn)象的可視化,包含氣象學、生物學、物理學、農(nóng)學等,重點在于對客觀事物的體、面及光源等的逼真渲染。
信息可視化(Informationvisualization)是一個跨學科領域,旨在研究大規(guī)模非數(shù)值型信息資源的視覺呈現(xiàn)(如軟件系統(tǒng)之中眾多的文件或者一行行的程序代碼)。通過利用圖形圖像方面的技術與方法,幫助人們理解和分析數(shù)據(jù)。可視化分析是科學可視化與信息可視化領域發(fā)展的產(chǎn)物,側重于借助交互式的用戶界面而進行對數(shù)據(jù)的分析與推理。
可視化分析是一個多學科領域。
大數(shù)據(jù)可視化的流程數(shù)據(jù)可視化是一個系統(tǒng)的流程,該流程以數(shù)據(jù)為基礎,以數(shù)據(jù)流為導向,還包括了數(shù)據(jù)采集、數(shù)據(jù)處理、可視化映射和用戶感知等環(huán)節(jié)。數(shù)據(jù)采集
數(shù)據(jù)可視化的基礎是數(shù)據(jù),數(shù)據(jù)可以通過儀器采樣、調查記錄等方式進行采集。數(shù)據(jù)采集又稱為“數(shù)據(jù)獲取”或“數(shù)據(jù)收集”,是指對現(xiàn)實世界的信息進行采樣。
采集得來的原始數(shù)據(jù)一方面不可避免含有噪聲和誤差,另一方面數(shù)據(jù)的模式和特征往往被隱藏。因此,通過數(shù)據(jù)處理能夠保證數(shù)據(jù)的完整性、有效性、準確性、一致性和可用性。數(shù)據(jù)處理
可視化映射是可視化流程的核心環(huán)節(jié),它用于把不同數(shù)據(jù)之間的聯(lián)系映射為可視化視覺通道中的不同元素,如標記的位置、大小、長度、形狀、方向、色調、飽和度、亮度等??梢暬成?/p>
用戶感知從數(shù)據(jù)的可視化結果中提取有用的信息、知識和靈感。用戶可以借助數(shù)據(jù)可視化結果感受數(shù)據(jù)的不同,從中提取信息、知識和靈感,并從中發(fā)現(xiàn)數(shù)據(jù)背后隱藏的現(xiàn)象和規(guī)律。用戶感知大數(shù)據(jù)可視化圖表介紹圖是表達數(shù)據(jù)的最直觀、最強大的方式之一,通過圖的展示能夠將數(shù)據(jù)進行優(yōu)雅的變換,從而讓枯燥的數(shù)字能吸引人們注意力。在實現(xiàn)數(shù)據(jù)可視化選擇圖時,應當首先考慮的問題是:我有什么數(shù)據(jù),我需要用圖做什么,我該如何展示數(shù)據(jù)。統(tǒng)計圖表中每一種類型的圖表中都可包含不同的數(shù)據(jù)可視化圖形,如柱狀圖、餅圖、氣泡圖、熱力圖、趨勢圖、直方圖、雷達圖、色塊圖、漏斗圖、和弦圖、儀表盤、面積圖、折線圖、密度圖以及K線圖等。在大數(shù)據(jù)的可視化圖中,按照數(shù)據(jù)的作用和功能可以把圖分為以下幾類:比較類、分布類、流程類、地圖類、占比類、區(qū)間類、關聯(lián)類、時間類和趨勢類等。大數(shù)據(jù)可視化方法文本可視化將互聯(lián)網(wǎng)中廣泛存在的文本信息用可視化的方式表示能夠更加生動的表達蘊含在文本中的語義特征,如邏輯結構、詞頻、動態(tài)演化規(guī)律等。文本可視化的實現(xiàn)他來到重慶大學上大學【全模式】:他/來到/重慶大學/上/大學京口瓜洲一水間,鐘山只隔數(shù)重山。春風又綠江南岸,明月何時照我還?【搜索引擎模式】:京口/瓜洲/一水間/,/鐘山/只/隔/數(shù)重/山/。/春風/又/綠/江南/岸/,/明月/何時/照/我/還/?詞頻統(tǒng)計結果:寶玉:45賈母:17紅樓夢部分章節(jié)出現(xiàn)單詞的統(tǒng)計詞云,也稱為標簽云或是文字云,它是一種典型的文本可視化技術。詞云對文本中出現(xiàn)頻率較高的“關鍵詞”予以視覺上的突出,從而形成“關鍵詞云層”或“關鍵詞渲染”。在詞云中會過濾掉大量的文本信息,使瀏覽網(wǎng)頁者只要一眼掃過文本就可以領略文本的主旨在詞云中一般用字號大小、字體顏色等圖形屬性對文本關鍵詞進行可視化。其中字號大小常用于表示該關鍵詞的重要性,字號越大表示該關鍵詞越重要。使用Python3制作詞云,需要導入wordcloud庫,該庫是Python中的一個非常優(yōu)秀的詞云展示第三方庫。
從網(wǎng)上下載并安裝wordcloud庫后,在Windows7命令提示符中輸入以下命令:importwordcloud
此外,為了能夠在Python3中顯示中文字符,還需要下載安裝另外一個庫:jieba,該庫也是一個Python第三方庫,用于中文分詞。在下載并安裝jieba庫后,在Windows7命令提示符中輸入以下命令:importjiebamatplotlib庫是Python下著名的繪圖庫,也是Python可視化庫的基礎庫,
matplotlib庫的功能十分強大。在Windows7下安裝Python可視化庫,常用pip命令來實現(xiàn),如輸入命令pipinstall
matplotlib來安裝matplotlib庫。安裝完成后,可在Windows命令行中輸入Python,并在進入Python界面后輸入以下命令:import
matplotlibimport
pandasimport
seabornimport
bokehimport
pyqtgraphimport
numpyfromwordcloudimportWordCloudimportmatplotlib.pyplotaspltwithopen('1.txt','r')asf:mytext=f.read()wordcloud=WordCloud().generate(mytext)plt.imshow(wordcloud,interpolation="bilinear")plt.axis("off")plt.show()詞云的代碼書寫在線詞云的制作
(1)登錄網(wǎng)址:/,選擇“線上作品”,點擊“基本”按鈕,并選擇不同的形狀,即可直接生成詞云網(wǎng)絡可視化網(wǎng)絡可視化通常是展示數(shù)據(jù)在網(wǎng)絡中的關聯(lián)關系,一般用于描繪互相連接的實體,例如社交網(wǎng)絡。騰訊微博、新浪微博等都是目前網(wǎng)絡上較為出名的社交網(wǎng)站社交網(wǎng)絡可視化社交網(wǎng)絡圖側重于顯示網(wǎng)絡內(nèi)部的實體關系,它將實體作為節(jié)點,一張社交網(wǎng)絡圖可以由無數(shù)多的節(jié)點組成,并用邊連接所有的節(jié)點。通過分析社交網(wǎng)絡圖可以直觀的看出每個人或是每個組織的相互關系。frommatplotlibimportpyplotaspltimportnetworkxasnxG=nx.Graph()G.add_nodes_from([1,2,3,4])G.add_edges_from([(1,2),(1,3),(1,4)])nx.draw_networkx(G)plt.show()樹圖也是社交網(wǎng)絡圖的常見表現(xiàn)形式,也是一種流行的利用包含關系表達層次化數(shù)據(jù)的可視化方法。由于其呈現(xiàn)數(shù)據(jù)時高效的空間利用率和良好的交互性,受到眾多的關注,得到深入的研究,并在科學、社會學、工程、商業(yè)等領域都得到了廣泛的應用但是值得注意的是:對于具有海量節(jié)點和邊的大規(guī)模網(wǎng)絡,如節(jié)點規(guī)模達到上百萬個以上時,如何在有限空間中進行可視化,是網(wǎng)絡可視化面臨的一個難點。空間信息可視化空間信息可視化是指運用計算機圖形圖像處理技術,將復雜的科學現(xiàn)象和自然景觀及一些抽象概念圖形化的過程。空間信息可視化常用地圖學、計算機圖形圖像技術,將地學信息輸入、查詢、分析、處理,采用圖形、圖像,結合圖表、文字、報表,以可視化形式,實現(xiàn)交互處理和顯示的理論、技術和方法。在空間信息可視化的實現(xiàn)中經(jīng)常要使用到3D圖形,3D圖形可以讓空間信息的展現(xiàn)變得真實。多媒體信息動態(tài)地圖三維仿真地圖虛擬現(xiàn)實數(shù)據(jù)可視化工具Excel
Excel擁有強大的函數(shù)庫,是快速分析數(shù)據(jù)的理想工具,也能創(chuàng)建供內(nèi)部使用的數(shù)據(jù)圖。但是Excel的圖形化功能并不強大。初學者可以使用Excel制作各種精美的圖表,包括了條形圖、餅圖、氣泡圖、折線圖、儀表圖以及面積圖等。Echarts
ECharts是一個使用JavaScript實現(xiàn)的開源可視化庫,可以流暢的運行在PC和移動設備上,并能夠兼容當前絕大部分瀏覽器。在功能上,ECharts可以提供直觀、交互豐富,可高度個性化定制的數(shù)據(jù)可視化圖表。普通用戶想要使用ECharts必須要進入官網(wǎng)中下載其開源的版本,然后才能繪制各種圖形。
ECharts官網(wǎng)上提供了大量的可視化圖表,如折線圖、柱狀圖、餅圖、散點圖、雷達圖、關系圖、熱力圖、樹圖等。
魔鏡魔鏡是中國國產(chǎn)的一個大數(shù)據(jù)可視化分析平臺,該平臺積累了大量來自內(nèi)部和外部的數(shù)據(jù),用戶可以自由的對這些數(shù)據(jù)進行整合、分析、預測和可視化。
D3.js
D3的全稱是(Data-DrivenDocuments),顧名思義是一個被數(shù)據(jù)驅動的文檔,其實也就是一個JavaScript的函數(shù)庫,開發(fā)者可使用該函數(shù)庫來實現(xiàn)數(shù)據(jù)可視化。
用戶在使用D3來處理數(shù)據(jù)之前,需要對HTML、CSS以及Javascript有一個很好的理解。除此以外,這個JS庫將數(shù)據(jù)以SVG和HTML5格式呈現(xiàn),所以像IE7和8這樣的舊式瀏覽器不能利用D3.js功能。D3.js可繪制各種圖形可視化開發(fā)語言使用可視化工具的目的是為了讓開發(fā)者的工作變得簡單而高效,但是如果能掌握了一門以上的編程語言,則可視化設計會變得更加容易。
R語言
R是屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件,主要用于統(tǒng)計分析和繪圖。R是由數(shù)據(jù)操作、計算和圖形展示功能整合而成的套件,包括有效的數(shù)據(jù)存儲和處理功能,因而為數(shù)據(jù)分析和顯示提供了強大圖形顯示功能。
Python
Python是一種計算機程序設計語言,是一種面向對象的動態(tài)類型語言。Python最早是由GuidovanRossum在八十年代末和九十年代初,在荷蘭國家數(shù)學和計算機科學研究所設計出來的,目前由一個核心開發(fā)團隊在維護。matplotlib是第一個Python可視化程序庫,有許多別的程序庫都是建立在它的基礎上或者直接調用它。比如pandas和Seaborn就是matplotlib的外包,它們讓開發(fā)者能用更少的代碼去調用matplotlib的方法,以便更方面的實現(xiàn)數(shù)據(jù)可視化。HTML、CSS、Javascript在可視化設計中,人們還可以使用HTML、CSS、Javascript來開發(fā)在瀏覽器中的數(shù)據(jù)展示。一般使用HTML設計網(wǎng)頁內(nèi)容,使用CSS設計網(wǎng)頁格式及元素的排列,使用Javascript來控制網(wǎng)頁的動態(tài)功能。
HTML5是HTML的最新版本,在HTML5中包含了SVG技術,同時提供了實時二維繪圖技術Canvas。(1)SVG。SVG英文全稱為Scalable
Vector
Graphics,由W3C制定,其基于可擴展標記語言XML。SVG是用于描述二維矢量圖形的一種圖形格式,由于它是基于XML的一種語言,所以它繼承了XML的跨平臺性和可擴展性。(2)Canvas。Canvas最初是由蘋果內(nèi)部使用自己的MacOSXWebKit推出,蘋果大力推廣使用HTML5,促進了Canvas的發(fā)展和應用。HTML5提供了畫布元素<Canvas>,同時HTML5定義了很多API支持腳本化客戶端繪圖操作,<Canvas>元素本身是沒有任何外觀的,但是它在HTML文章中創(chuàng)建了一個畫板,通過繪圖API可以在畫板中繪制位圖模式的圖形。數(shù)據(jù)可視化技術的應用大數(shù)據(jù)可視化技術的應用領域十分廣泛。從應用場景特征上看,可視化系統(tǒng)一般可以分為三類,第一類是監(jiān)測指揮,即指揮監(jiān)控中心;第二類是分析研判,與分析人員有關系,常用的是在特定的交互分析環(huán)境上,更偏業(yè)務應用的場景;第三類是匯報展示,更多是面向領導,匯報工作使用。數(shù)據(jù)可視化在現(xiàn)代農(nóng)業(yè)中的應用數(shù)據(jù)可視化在醫(yī)療中的應用數(shù)據(jù)可視化在教育科研中的應用本章小結1)數(shù)據(jù)可視化,是關于數(shù)據(jù)視覺表現(xiàn)形式的科學技術研究,它為大數(shù)據(jù)分析提供了一種更加直觀的挖掘、分析與展示當代手段,從而讓大數(shù)據(jù)更有意義。2)數(shù)據(jù)可視化是一個系統(tǒng)的流程,該流程以數(shù)據(jù)為基礎,以數(shù)據(jù)流為導向,還包括了數(shù)據(jù)采集、數(shù)據(jù)處理、可視化映射和用戶感知等環(huán)節(jié)。3)在統(tǒng)計圖表中每一種類型的圖表中都可包含不同的數(shù)據(jù)可視化圖形,如柱狀圖、餅圖、氣泡圖、熱力圖、趨勢圖、直方圖、雷達圖、色塊圖、漏斗圖、和弦圖、儀表盤、面積圖、折線圖、密度圖以及K線圖等。4)大數(shù)據(jù)可視化的方法包含有文本可視化、網(wǎng)絡可視化和空間信息可視化。5)數(shù)據(jù)可視化的工具較多,有開源的,有免費的,也有收費的。6)數(shù)據(jù)可視化在各個行業(yè)中都有著十分廣泛的應用。第7章數(shù)據(jù)治理大數(shù)據(jù)治理的核心是為業(yè)務提供持續(xù)的、可度量的價值。工業(yè)界IBM數(shù)據(jù)治理委員會給數(shù)據(jù)治理的定義如下:數(shù)據(jù)治理是一組流程,用來改變組織行為,利用和保護企業(yè)數(shù)據(jù),將其作為一種戰(zhàn)略資產(chǎn)。而學術界則將數(shù)據(jù)治理定義為一個指導決策確保企業(yè)的數(shù)據(jù)被正確使用的框架。一般來說,數(shù)據(jù)治理主要包括以下三部分工作:(1)定義數(shù)據(jù)資產(chǎn)的具體職責和決策權,應用角色分配決策需要執(zhí)行的確切任務的決策和規(guī)范活動。(2)為數(shù)據(jù)管理實踐制定企業(yè)范圍的原則,標準,規(guī)則和策略。數(shù)據(jù)的一致性,可信性和準確性對于確保增值決策至關重要。(3)建立必要的流程,以提供對數(shù)據(jù)的連續(xù)監(jiān)視和控制實踐并幫助在不同組織職能部門之間執(zhí)行與數(shù)據(jù)相關的決策,以及業(yè)務用戶類別。數(shù)據(jù)治理涉及的領域目前常見的數(shù)據(jù)治理涉及的領域主要包括以下:數(shù)據(jù)資產(chǎn)、數(shù)據(jù)模型、元數(shù)據(jù)與元數(shù)據(jù)管理、數(shù)據(jù)標準、主數(shù)據(jù)管理、數(shù)據(jù)質量管理、數(shù)據(jù)管理生命周期、數(shù)據(jù)存儲、數(shù)據(jù)交換、數(shù)據(jù)集成、數(shù)據(jù)安全、數(shù)據(jù)服務、數(shù)據(jù)價值、數(shù)據(jù)開發(fā)和數(shù)據(jù)倉庫。(1)數(shù)據(jù)資產(chǎn)數(shù)據(jù)資產(chǎn)可定義為企業(yè)過去的交易或者事項形成的,由企業(yè)擁有或者控制的,預期會給企業(yè)帶來經(jīng)濟利益的,以物理或電子的方式記錄的數(shù)據(jù)資源,如文件資料、電子數(shù)據(jù)等。(2)數(shù)據(jù)模型數(shù)據(jù)模型是數(shù)據(jù)治理中的重要部分。理想的數(shù)據(jù)模型應該具有非冗余、穩(wěn)定、一致、易用等特征。(3)元數(shù)據(jù)與元數(shù)據(jù)管理元數(shù)據(jù),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),是描述數(shù)據(jù)的數(shù)據(jù),是數(shù)據(jù)倉庫的重要構件,是數(shù)據(jù)倉庫的導航圖,在數(shù)據(jù)源抽取、數(shù)據(jù)倉庫應用開發(fā)、業(yè)務分析以及數(shù)據(jù)倉庫服務等過程中都發(fā)揮著重要的作用。(4)數(shù)據(jù)標準標準是指為了在一定的范圍內(nèi)獲得最佳秩序,經(jīng)協(xié)商一致制定并由公認機構批準,共同使用的和重復使用的一種規(guī)范性文件。數(shù)據(jù)標準是指對數(shù)據(jù)的表達、格式及定義的一致約定,包括數(shù)據(jù)業(yè)務屬性、技術屬性和管理屬性的統(tǒng)一定義。(5)主數(shù)據(jù)與主數(shù)據(jù)管理主數(shù)據(jù)是用來描述企業(yè)核心業(yè)務實體的數(shù)據(jù),它是具有高業(yè)務價值的、可以在企業(yè)內(nèi)跨越各個業(yè)務部門被重復使用的數(shù)據(jù),并且存在于多個異構的應用系統(tǒng)中。(6)數(shù)據(jù)質量管理大數(shù)據(jù)應用必須建立在質量可靠的數(shù)據(jù)之上才有意義,建立在低質量甚至錯誤數(shù)據(jù)之上的應用有可能與其初心南轅北轍背道而馳。數(shù)據(jù)質量就是確保組織擁有的數(shù)據(jù)完整且準確,只有完整、準確的數(shù)據(jù)才可以供企業(yè)分析、共享使用。數(shù)據(jù)治理的實施與關鍵因素企業(yè)在實施數(shù)據(jù)治理項目時應該以業(yè)務需求為主導,支持業(yè)務應用識別數(shù)據(jù),實現(xiàn)數(shù)據(jù)治理。數(shù)據(jù)只有得到有效應用才能產(chǎn)生業(yè)務價值,不管是企業(yè)建設數(shù)據(jù)平臺,還是實施數(shù)據(jù)治理(管理)項目,本質上都是為數(shù)據(jù)運營(應用)服務的。由于數(shù)據(jù)治理工作本身會產(chǎn)生成本,所一定要抓住關鍵數(shù)據(jù),確保驅動業(yè)務的數(shù)據(jù)質量不斷提升。(1)組織架構在實際的數(shù)據(jù)治理項目實施中,有效的組織機構是項目成功的有力保證,為了達到項目預期目標,在項目開始之前對于組織機構及其責任分工做出規(guī)劃是非常必要的。建立起合理的數(shù)據(jù)管理組織和管理體系是關鍵,如可由數(shù)據(jù)責任部門、數(shù)據(jù)使用部門、數(shù)據(jù)管理部門,數(shù)據(jù)技術支持部門(IT)構成“四位一體”管理模式。(2)流程在企業(yè)成立了相關的組織后要制定規(guī)范的流程,通過流程將數(shù)據(jù)治理項目打通,進而執(zhí)行。通常來講基本上是先有組織,再有流程。(3)數(shù)據(jù)標準有了組織和流程,就會涉及到數(shù)據(jù)標準這個層面,需要企業(yè)考慮數(shù)據(jù)要遵循什么樣的標準,例如分類標準、屬性標準,此外還會涉及到歷史數(shù)據(jù)的清理和映射等等。(4)工具(數(shù)據(jù)平臺)工具也就是數(shù)據(jù)治理相關的數(shù)據(jù)平臺,具體是指企業(yè)的項目推進過程中使用的是哪種平臺。談到數(shù)據(jù)治理的平臺,以市面上的現(xiàn)在的技術和系統(tǒng)來看,支撐數(shù)據(jù)治理已經(jīng)不是難題了。目前市場上產(chǎn)品種類琳瑯滿目,企業(yè)的選型標準通常是:軟件平臺的穩(wěn)定性較好、軟件功能與企業(yè)業(yè)務的匹配程度較好等。(5)數(shù)據(jù)治理成熟度評估數(shù)據(jù)治理工作的成效如何去量化、衡量一直是個難題。因為企業(yè)不可能完全剝離其他因素的影響,單獨去判定數(shù)據(jù)治理的效果。數(shù)據(jù)治理的關鍵因素數(shù)據(jù)倉庫建模數(shù)據(jù)倉庫是一個存在已久并且已經(jīng)面臨更替的概念。傳統(tǒng)上,因為數(shù)據(jù)分析、報表加工的需要,將源業(yè)務系統(tǒng)的數(shù)據(jù)采集匯集到數(shù)據(jù)倉庫,通過數(shù)據(jù)清洗、加工、整合,然后形成方便后續(xù)使用的數(shù)據(jù)應用。要成功地建立一個數(shù)據(jù)倉庫,必須有一個合理的數(shù)據(jù)模型。數(shù)據(jù)清洗在數(shù)據(jù)治理中進行數(shù)據(jù)清洗時常常要經(jīng)歷以下幾個步驟。(1)制定數(shù)據(jù)質量計劃在數(shù)據(jù)治理中,想擁有干凈的數(shù)據(jù),要制定數(shù)據(jù)質量計劃。首先必須要了解大多數(shù)錯誤發(fā)生的位置,以便確定根本原因并構建管理數(shù)據(jù)的計劃。因為有效的數(shù)據(jù)清洗將會對整個企業(yè)產(chǎn)生全面的影響,因此在工作中盡可能保持開放和溝通的態(tài)度。(2)在源端更正數(shù)據(jù)首先應增加對數(shù)據(jù)庫輸入的控制可確保系統(tǒng)最終使用的數(shù)據(jù)更加清潔。如果數(shù)據(jù)在成為系統(tǒng)中的臟數(shù)據(jù)(或重復數(shù)據(jù))之前可以修復,則可節(jié)省大量的時間并省去很多工作量。(3)對數(shù)據(jù)持續(xù)管理數(shù)據(jù)治理過程周期漫長,因此在此過程中應當對數(shù)據(jù)持續(xù)管理。例如可以通過數(shù)據(jù)質量監(jiān)控工具實現(xiàn)對企業(yè)數(shù)據(jù)的實時測量,提升數(shù)據(jù)質量,確保數(shù)據(jù)數(shù)據(jù)準確性。此外,還應當對數(shù)據(jù)進行標準化、規(guī)范化的管理。架構設計架構是針對某種特定目標系統(tǒng)的具有體系性的、普遍性的問題而提供通用的解決方案,是對復雜形態(tài)的一種共性的體系抽象架構。企業(yè)架構通常分為兩大部分即業(yè)務架構和IT架構。(1)業(yè)務架構業(yè)務架構是企業(yè)治理結構、商業(yè)能力與價值流的正式藍圖,并將企業(yè)的業(yè)務戰(zhàn)略轉化為日常運作的渠道。企業(yè)管理層通常是企業(yè)戰(zhàn)略的提出者,而業(yè)務架構師則通常是業(yè)務藍圖的設計師,最后的解決方案則是由數(shù)據(jù)架構師、應用架構師和技術架構師來完成主流的企業(yè)架構Zachman架構FEA架構TOGAF架構Gartner架構常見的數(shù)據(jù)治理實現(xiàn)工具Atlas最早由HortonWorks公司開發(fā),用來管理Hadoop項目里面的元數(shù)據(jù),進而設計為數(shù)據(jù)治理的框架。后來開源出來給Apache社區(qū)進行孵化,目前得到Aetna,Merck,Target,SAS,IBM等公司的支持進行發(fā)展演進。因其支持橫向海量擴展、良好的集成能力和開源的特點,國內(nèi)大部分廠家選擇使用Atlas或對其進行二次開發(fā)。Apacheranger是一個Hadoop集群權限框架,提供操作、監(jiān)控、管理復雜的數(shù)據(jù)權限,它提供一個集中的管理機制,管理基于yarn的Hadoop生態(tài)圈的所有數(shù)據(jù)權限。ApacheSentry是Cloudera公司發(fā)布的一個Hadoop安全開源組件,其中Sentry是一個基于角色的粒度授權模塊,提供了對Hadoop集群上經(jīng)過身份驗證的用戶提供了控制和強制訪問數(shù)據(jù)或數(shù)據(jù)特權的能力。它可以和Hive/Hcatalog、ApacheSolr和ClouderaImpala等集成,甚至還可以擴展到其他Hadoop生態(tài)系統(tǒng)組件,如HDFS和HBase。第8章大數(shù)據(jù)安全數(shù)據(jù)安全概述
數(shù)據(jù)的安全是計算機系統(tǒng)安全的核心部分之一,數(shù)據(jù)安全的定義一方面是指其自身的安全,包括采用現(xiàn)代加密技術對數(shù)據(jù)進行主動保護,另一方面是數(shù)據(jù)防護的安全,指的是采用現(xiàn)代信息存儲手段對數(shù)據(jù)進行主動防護。數(shù)據(jù)安全的特點:(1)保密性個人或者企事業(yè)單位的信息數(shù)據(jù)不能被其他未經(jīng)許可的人員取得。
(2)完整性完整性是指在信息數(shù)據(jù)傳輸和存儲過程中,不被未經(jīng)授權的篡改。
(3)可用性可用性也稱有效性,主要是指信息數(shù)據(jù)能夠被授權的人員正常訪問、使用。大數(shù)據(jù)時代的安全挑戰(zhàn)與解決網(wǎng)絡安全威脅網(wǎng)絡安全問題可能對大數(shù)據(jù)的應用造成十分嚴重的安全威脅,例如利用計算機網(wǎng)絡黑客就可以使用技術手段盜取數(shù)據(jù)、篡改數(shù)據(jù)、損壞數(shù)據(jù),甚至侵入系統(tǒng)造成嚴重的破壞。
1)網(wǎng)絡攻擊網(wǎng)絡攻擊從最初“黑客”個人出于炫耀和展示網(wǎng)絡技術,發(fā)展到如今更多的是以謀取經(jīng)濟利益為目的、有組織的職業(yè)犯罪行為。同時由于網(wǎng)絡攻擊技術的發(fā)展,使得許多攻擊工具軟件使用簡單化,獲取途徑比以往更加容易,網(wǎng)絡攻擊的實施者也出現(xiàn)了低齡化和集團化的特點。2)計算機病毒與木馬計算機病毒其實就是一個計算機程序,只不過不同于一般程序,其是會給計算機系統(tǒng)造成破壞,并且能夠自我復制和傳播。計算機病毒在互聯(lián)網(wǎng)快速發(fā)展的今天,其傳播的速度和造成的破壞規(guī)模都是以往無法想象的。
3)拒絕服務攻擊拒絕服務攻擊,英文名稱是DenialofService,簡稱DoS,其攻擊行為被稱為DoS攻擊,目的是使計算機或網(wǎng)絡超出其能夠提供的服務限度,造成資源耗盡,最終無法提供正常的服務。大數(shù)據(jù)設施安全威脅大數(shù)據(jù)設施是大數(shù)據(jù)技術應用的基礎,其包括了數(shù)據(jù)的存儲設備、計算設備、互聯(lián)以及管理等設備,其中既包括硬件設備也包含軟件設備。
(1)物理安全物理安全是大數(shù)據(jù)設施安全的前提和基礎(3)信息泄露及丟失信息的泄露及丟失主要包括了在信息的傳輸過程中、在存儲介質中甚至是惡意人員利用隱蔽隧道竊取。(2)非授權訪問非授權訪問指的是在沒有獲得授權許可的情況下,使用大數(shù)據(jù)基礎設施設備或者訪問相關網(wǎng)絡及計算機資源。大數(shù)據(jù)的儲存是大數(shù)據(jù)技術的一個關鍵技術,現(xiàn)階段主要是采取關系數(shù)據(jù)庫和非關系數(shù)據(jù)庫進行存儲。大數(shù)據(jù)存儲安全威脅關系型數(shù)據(jù)庫有很多的不足之處,諸如高并發(fā)讀取性能較低、海量數(shù)據(jù)的讀寫效率很低、數(shù)據(jù)庫的擴展性和可用性較低等。(1)關系型數(shù)據(jù)庫的存儲安全
1)
模式的成熟度不足2)
支持力度不夠
3)
客戶端軟件安全威脅4)
數(shù)據(jù)冗余及分散性風險(2)非關系型數(shù)據(jù)庫的存儲安全個人隱私安全威脅在大數(shù)據(jù)時代,個人的隱私問題變得越來越受人們關注。人們在享受技術進步帶給我們的方便和快捷生活時,也受到了個人隱私被窺探的困擾。個人隱私指的是我們個人生活中不愿意被公開或者讓其他人知曉的個人信息。例如我們的手機號碼、家庭住址、家庭成員相關信息、個人身份信息等內(nèi)容。個人隱私的竊取和濫用會給我們生活和工作帶來各種各樣的煩惱和危險。(1)個人智能終端設備在移動互聯(lián)網(wǎng)普及的當下,個人智能終端設備的使用也變得非常普遍。
智能手機會記錄我們經(jīng)常活動的地理位置信息、經(jīng)常聯(lián)系人的手機號碼,智能手表或者手環(huán)可以記錄我們的心率等等,這些個人隱私信息都是非常重要甚至直接關系我們?nèi)松戆踩男畔?,一旦被人獲取后果可能非常嚴重。(2)社交軟件社交軟件是現(xiàn)在人們生活中必不可少的網(wǎng)絡應用軟件。然而正因為我們?nèi)绱祟l繁的使用社交軟件,聯(lián)系朋友,分享生活的點滴樂趣,其也成為竊取我們個人隱私信息的重要工具。例如我們在微信朋友圈分享的自己和家人的照片、活動的內(nèi)容和地址信息都有可能被人盜取,并謀取利益。(3)網(wǎng)絡購物隨著電子商務產(chǎn)業(yè)的迅速發(fā)展,人們越來越習慣網(wǎng)絡購物。但在我們享受網(wǎng)絡購物帶給我們方便的同時,我們的個人隱私信息也被暴露在網(wǎng)絡上。我們的家庭住址、姓名和電話被電子商務平臺、銷售店鋪服務者、快遞或者物流公司獲取,我們的購物習慣和喜好也可能被分析并推送相應的廣告。(4)網(wǎng)頁瀏覽我們平常使用最多的網(wǎng)絡應用可能就是利用瀏覽器來瀏覽網(wǎng)頁,很多人可能沒有意識到,僅僅是瀏覽網(wǎng)頁也會泄露我們的個人隱私。大數(shù)據(jù)安全解決關鍵技術數(shù)據(jù)加密技術數(shù)據(jù)加密技術是保證數(shù)據(jù)安全的有效手段。數(shù)據(jù)加密技術是指將原始信息(一般稱為明文)利用加密密鑰和加密算法轉化成為密文的技術手段。(1)古典加密技術傳統(tǒng)的數(shù)據(jù)加密技術主要針對的是對文字信息的加密,根據(jù)不同的加密方式可以分為代換加密和置換加密。(2)現(xiàn)代加密技術密碼算法包括了加密算法和解密算法,其是整個密碼體制的核心。密碼算法實際上可以被看成是一些交換的組合。當輸入為明文時,經(jīng)過這些變換,輸出就為密文。這是加密交換的過程,此時稱為加密算法。身份認證技術身份認證技術是保證大數(shù)據(jù)安全的一個重要技術。通過身份的認證,可以確定訪問者的權限,明確其能夠獲取的數(shù)據(jù)信息類別和數(shù)量,確保數(shù)據(jù)信息不被非法用戶獲取、篡改或者是破壞。同時身份認證技術還要對用戶身份的真實性進行驗證,避免惡意人士通過身份偽裝繞過防范措施。(1)靜態(tài)口令認證靜態(tài)口令也就是我們?nèi)粘W畛S玫撵o態(tài)密碼,其是我們用戶自行設定,通常長時間保持不變。這種“用戶名+密碼”的身份認證方式在計算機系統(tǒng)中廣泛應用,也是最簡單的一種身份認證方式。(2)動態(tài)口令認證動態(tài)口令認證方式的安全性較靜態(tài)口令認證更高,其是一種動態(tài)密碼。它是依據(jù)專門的算法每間隔60秒生成一個動態(tài)密碼,且這個口令是一次有效。(3)數(shù)字證書認證數(shù)字證書是指CA機構發(fā)行的一種電子文檔,是一串能夠表明網(wǎng)絡用戶身份信息的數(shù)字,其好像是我們每個人的身份證,是計算機數(shù)字世界認證用戶身份的有效手段。(4)生物識別認證生物識別認證是利用我們?nèi)祟愒谏锾卣魃系哪承┪ㄒ恍詠磉M行身份認證的技術。例如我們?nèi)祟惪梢杂糜谏镒R別的特征有指紋、虹膜、面部、聲音等?,F(xiàn)在使用最廣泛的生物識別技術就是指紋識別。訪問控制技術訪問控制技術是指通過某種途徑和方法準許或者是限制用戶的訪問能力,從而控制系統(tǒng)關鍵資源的訪問,防止非法用戶侵入或者是合法用戶誤操作造成的破壞,保證關鍵數(shù)據(jù)資源被合法地、受控制的使用。訪問控制的主要類型分為:自主訪問控制(DAC)、強制訪問控制(MAC)和基于角色訪問控制(RBAC)。安全審計技術安全審計是指按照制定的安全策略,對系統(tǒng)活動和用戶活動等與安全相關的活動信息進行檢查、審查和檢驗操作事件的環(huán)境及活動,進而發(fā)現(xiàn)系統(tǒng)漏洞、入侵行為和非法操作等,提高系統(tǒng)安全性能。安全審計主要記錄和審查對系統(tǒng)資源進行操作的活動,例如對數(shù)據(jù)庫中的數(shù)據(jù)表、視圖、存儲過程等的創(chuàng)建、修改和刪除等操作,根據(jù)設置的規(guī)則,判斷違規(guī)操作,并且對違規(guī)行為進行記錄、報警,保障數(shù)據(jù)的安全。安全審計的重點是評估現(xiàn)行的安全政策、策略、機制和系統(tǒng)監(jiān)控情況。本章小結本章主要介紹了數(shù)據(jù)安全的基本概念和主要內(nèi)容,以及大數(shù)據(jù)安全面臨的主要威脅,然后介紹了針對這些威脅現(xiàn)有的安全防范技術,其中包括了數(shù)據(jù)加密技術、身份認證技術、訪問控制技術和安全審計等,最后通過兩個實訓項目讓學生學習文檔加密和網(wǎng)絡入侵的方法及防范措施。通過本章的學習,讓學生了解大數(shù)據(jù)安全的相關知識,掌握安全防范方法。第9章大數(shù)據(jù)的行業(yè)應用旅游大數(shù)據(jù)旅游是一個城市的名片,是一個城市的品牌生產(chǎn)力,也是一個城市綜合能力的重要體現(xiàn)。
隨著社會信息化的發(fā)展,公眾意識的不斷提升,人們對旅游質量也提出了更高的要求。國內(nèi)不少地方正在和準備建設云計算中心。同時3G的推出,極大地推動了移動互聯(lián)網(wǎng)的發(fā)展,使人們隨時隨地可以上網(wǎng)。此外隨著智能手機和平板電腦的發(fā)展,更為旅游大數(shù)據(jù)的采集和分析提供了強勁硬件支撐。
“智慧旅游”也被稱為”智能旅游”,不可或缺的因素是綜合性的云計算、物聯(lián)網(wǎng)等高科技信息技術的應用,旅游經(jīng)營者可以利用網(wǎng)絡為廣大受眾者及時發(fā)布相關企業(yè)動態(tài)和旅游信息大數(shù)據(jù)對旅游行業(yè)的影響有助于行業(yè)精確定位提高服務質量3.改善經(jīng)營管理4.改變營銷策略大數(shù)據(jù)在旅游行業(yè)中的應用1.大數(shù)據(jù)在旅游景區(qū)中的應用2.大數(shù)據(jù)在旅行社中的應用3.大數(shù)據(jù)在酒店中的應用4.大數(shù)據(jù)在旅游交通中的應用5.大數(shù)據(jù)在旅游行政部門中的應用旅游大數(shù)據(jù)的應用場景(1)旅游路線的個性化定制。
(2)旅游產(chǎn)品的個性化推薦。
(3)利用GPS定位來完善景區(qū)的用戶體驗。
(4)實現(xiàn)景區(qū)的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新能源汽車市場需求預測試題及答案
- 深入探討土木工程信息系統(tǒng)的考試題目及答案
- 心理測量考試題及答案
- 智能物流機器人與無人機協(xié)同配送可行性研究報告
- 人工智能在影像診斷質量控制中的應用研究分析報告
- 2025公務員考試題目及答案
- 2025飛行員面試題庫及答案
- 腫瘤精準醫(yī)療在淋巴瘤放療計劃優(yōu)化中的應用現(xiàn)狀與未來展望報告
- 托幼培訓考試題及答案
- 渭水釣魚考試試題及答案
- 財務管理實務(浙江廣廈建設職業(yè)技術大學)知到智慧樹章節(jié)答案
- 部編版歷史九年級上冊第1課-古代埃及【課件】d
- 外包加工安全協(xié)議書
- GB/T 28589-2024地理信息定位服務
- 數(shù)據(jù)庫原理及應用教程(第5版) (微課版)課件 第4章 關系型數(shù)據(jù)庫理論
- 人工智能訓練師理論知識考核要素細目表五級
- 2024年貴州省中考理科綜合試卷(含答案)
- 110kV變電站專項電氣試驗及調試方案
- DL-T901-2017火力發(fā)電廠煙囪(煙道)防腐蝕材料
- GB/T 3428-2024架空導線用鍍鋅鋼線
- MOOC 英語語法與寫作-暨南大學 中國大學慕課答案
評論
0/150
提交評論