




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優(yōu)質文檔-傾情為你奉上 第一章引論1、 什么是數據挖掘?數據挖掘更正確的命名為“從數據中挖掘知識”,是數據中的知識發(fā)現(KDD)的同義詞。數據挖掘是從大量數據中挖掘有趣模式和知識的過程,數據源包括數據庫、數據倉庫、web、其他信息存儲庫或動態(tài)的流入系統(tǒng)的數據。2、 知識發(fā)現的過程是什么?知識發(fā)現的過程為:(1)數據清理(消除噪聲和刪除不一致的數據)(2)數據集成(多種數據源可以組合在一起)(3)數據選擇(從數據庫中提取與分析任務相關的數據)(4)數據變換(通過匯總或聚集操作,把數據變換和統(tǒng)一成適合挖掘的形式)(5)數據挖掘(基本步驟,使用智能方法提取數據模式)(6)模式評估(根據某種興趣度
2、度量,識別代表知識的真正有趣的模式)(7)知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識)3、什么類型的數據可以挖掘?數據挖掘可以作用于任何類型的數據,數據的最基本形式是數據庫數據、數據倉庫數據、事務數據。也可以用于數據流、有序/序列數據、圖或網絡數據、空間數據、文本數據、多媒體數據和萬維網。(1) 數據庫數據由一組內部相關的數據和一組管理和存儲數據的軟件程序組成。關系數據庫是表的匯集,每個表被賦予一個唯一的名字,含有一組屬性(列或字段),并且通常存放大量元組(記錄或行)。每個元組代表一個對象,被唯一的關鍵字標識,并被一組屬性值描述。通常為關系數據庫構建語義數據模型,如實體-聯系(E
3、R)數據模型。(2) 數據倉庫數據倉庫是一個從多個數據源收集的信息存儲庫,存放在一致的模式下,并且通常駐留在單個站點上。數據存儲從歷史的角度提供信息,并且通常是匯總的。數據倉庫用稱作數據立方體的多維數據結構建模。每個維對應于模式中的一個或一組屬性,每個單元存放某種聚集度量值(3) 事務數據每個記錄代表一個事務4、 什么類型的模式可以挖掘?數據挖掘功能用于指定數據挖掘任務發(fā)現的模式,一般而言,這些任務可以分為兩類:描述性和預測性。描述性挖掘任務刻畫目標數據中數據的一般性質,預測性挖掘任務在當前數據上進行歸納,以便進行預測。(1) 類/概念描述:特征化與區(qū)分數據可以與類或概念相關聯。數據特征化是目
4、標類數據的一般特性或特征的匯總。將數據匯總和特征化的方法:基于統(tǒng)計度量和圖的簡單數據匯總、基于數據立方體的OLAP上卷操作、面向屬性的歸納技術。數據特征的輸出可以用多種形式提供:餅圖、條圖、曲線、多位數據立方體、多維表;數據區(qū)分是將目標類數據對象的一般特性與一個或多個對比類對象的一般特性進行比較。(2) 挖掘頻繁模式、關聯和相關性頻繁模式包括頻繁項集(基礎)、頻繁子序列和頻繁子結構。(3) 用于預測分析的分類與回歸 分類預測類別標號,而回歸建立連續(xù)值函數模型。回歸分析是最常用的數值預測統(tǒng)計學方法,相關分析可能需要在分類和回歸之前進行,它試圖識別與分類和回歸過程顯著相關的屬性。(4)聚類分析聚類
5、分析數據對象,而不考慮類標號。(5) 離群點分析大部分數據挖掘都將離群點作為噪聲或異常而丟棄,然而在一些應用中可以做離群點分析或異常挖掘5、 支持度與置信度支持度表示事物數據庫中滿足規(guī)則的事物所占的百分比,置信度評估所發(fā)現的規(guī)則的確信程度。 準確率即被一個規(guī)則正確分類的數據所占的百分比,覆蓋率類似于“支持度”表示規(guī)則可以作用的數據所占的百分比。第2章 認識數據1、 數據對象與數據類型數據對象又稱樣本、實例、數據點或對象,數據對象存放在數據庫中,則他們?yōu)閿祿M,即數據庫的行對應于數據對象,列對應于屬性。屬性:表示數據對象的一個特征(屬性、維、特征、變量)標稱屬性:一些符號或事物的名稱(分類的或
6、枚舉的),標稱屬性可以取整數值,但是不能把它視為數值屬性。二元屬性:是一種標稱屬性,只有兩種狀態(tài),0或1,0通常表示該屬性不出現,1表示出現。二元屬性有對稱與非對稱兩種。序數屬性:可能的值之間具有意義的序或秩評定,但是相繼值之間的差是未知的。中心趨勢可以用它的眾數和中位數表示,但不能定義均值。數值屬性:定量的,用整數或實數值表示,數值屬性可以是區(qū)間標度的或比率標度的。除了中心趨勢度量中位數和眾數之外,還可以計算均值。比率標度屬性是具有固有零點的數值屬性。離散屬性與連續(xù)屬性:離散屬性具有有限或無限可數個值,可以用或不用整數表示2、 數據的基本統(tǒng)計描述(1)中心趨勢度量,度量數據分布的中部或中心位
7、置,包括均值、加權平均、中位數、眾數和中列數;均值對極端值比較敏感,為了抵消少數極端值的影響,可以使用截尾均值;對于非對稱數據,數據中心最好用中位數;眾數是集合中出現最頻繁的值,分為單峰、雙峰和三峰,對于適度傾斜的單峰數值數據,有經驗公式:均值-眾數=3*(均值-中位數);中列數是數據集的最大和最小值的平均值。(2)數據的散布,最常見度量是極差、四分位數、四分位極差、五數概括和盒圖,以及數據的方差和標準差。極差:最大值與最小值之差;分位數:是取自數據分布的每隔一定間隔上的點,把數據劃分成基本上大小相等的連貫集合;識別可以的離群點的通常規(guī)則是,挑選落在第3個四分位數之上或第1個四分位數之下至少1
8、.5*IQR處的值,IQR為四分位數極差(Q3-Q1);五數概括由中位數、四分位數Q1和Q3、最小和最大觀測值組成;盒圖是一種流行的分布的直觀表示。方差和標準差指出數據分布的散布程度。低標準差意味數據觀測趨向于非常靠近均值,高標準差表示數據散布在一個大的值域中。(3) 可視化審視數據,包括條圖、餅圖和線圖,還有分位數圖、分位數-分位數圖、直方圖和散點圖。分位數圖:是一種觀察單變量數據分布得簡單有效方法,顯示給定屬性的所有數據。分位數-分位數圖(q-q圖),可以觀察從一個分布到另一個分布是否有漂移。直方圖:概括給定屬性X的分布的圖形方法;散點圖:確定兩個數值變量之間看上去是否存在聯系、模式或趨勢
9、的最有效的圖形方法之一?;緮祿枋龊蛨D形統(tǒng)計顯示有助于識別噪聲和離群點,對于數據清理特別有用。3、 數據可視化數據可視化旨在通過圖形表示清晰有效地表達數據。(1) 基于像素的可視化技術像素的顏色反應該維的值,每維創(chuàng)建一個窗口。(2) 幾何投影可視化技術幾何投影技術幫助用戶發(fā)現多維數據集的投影,二維散點圖通過不同顏色或形狀表述不同的數據點,三維散點圖使用笛卡爾坐標系的三個坐標軸,對于維數超過4的數據集,散點圖一般不太有效。平行坐標可以處理更高的維度,繪制n個等距離、相互平行的軸,每維一個。(3) 基于圖符的可視化技術兩種流行的圖符技術切爾諾夫臉和人物線條畫。切爾諾夫臉:有助于揭示數據中的趨勢,
10、臉的要素表示維的值,局限性為在表示多重聯系的能力方面,且無法顯示具體的數據值,此外面部特征因感知的重要性而異。人物線條畫:把多維數據映射到5段人物線條畫中,其中每個畫都有四肢和一個軀體。(4) 層次可視化技術把所有維劃分成子集,這些子空間按層次可視化。 (5)可視化復雜對象和關系標簽云是用戶產生的標簽的統(tǒng)計量的可視化。標簽云的用法有兩種,單個術語的標簽云可以使用標簽的大小表示該標簽被不同的用戶用于該術語的次數,多個術語上可視化標簽統(tǒng)計量時,使用標簽的大小表示該標簽用于的術語數,即標簽的人氣。4、度量數據的相似性和相異性(1)數據矩陣與相異性矩陣數據矩陣(對象-屬性結構),每行對應于一個對象,每
11、列代表一個屬性,也稱為二模矩陣相異性矩陣(對象-對象結構),存放n個對象兩兩之間的鄰近度,只包含一類實體,稱為單模矩陣相似性度量可以表示成相異性度量的函數(2)標稱屬性的鄰近性度量標稱屬性對象之間的相異性可以根據不匹配率來計算 M是匹配的數目(i,j取值相同狀態(tài)的屬性數),p是刻畫對象的屬性總數;(3)二元屬性的鄰近性度量對象j對象i10sum1qrq+r0sts+tsumq+sr+tp基于對稱二元屬性的相異性稱作對稱的二元相異性,i,j的相異性為基于非對稱的二元屬性的相異性稱為非對稱的二元相異性,非對稱的二元屬性,兩個狀態(tài)不是同等重要的,若取值為1被認為比取值為0更有意義,負匹配t被認為不重
12、要而忽略,則i,j相異性為(4) 數值屬性的相異性最流行的距離度量是歐幾里得距離曼哈頓距離歐幾里得距離和曼哈頓距離都滿足數學性質:非負性:d(i,j)0:距離是一個非負的值同一性:d(i,j)=0:對象到自身的距離為0對稱性:d(i,j)=d(j,i):距離是一個對稱函數三角不等式:d(i,j)d(i,k)+d(k,j)從對象i到對象j的距離不會大于途徑任何其他對象k的距離閔可夫斯基距離 (5) 序數屬性的鄰近性度量 第3章 數據預處理1、 為什么要進行數據預處理? 數據質量涉及很多因素,包括準確性、完整性、一致性、時效性、可信性和可解釋性。不正確、不完整和不一致的數據是現實世界的大型數據庫和
13、數據倉庫共同特點。數據預處理可以改進數據的質量,有助于提高挖掘過程的準確率和效率。2、 數據預處理的主要任務數據預處理的主要步驟:數據清理、數據集成、數據歸約和數據變換。(1) 數據清理通過填寫缺失值,光滑噪聲數據,識別或刪除離群點并解決不一致性來“清理”數據;數據歸約得到數據集的簡化表示,數據歸約策略包括維歸約和數值歸約。維歸約使用數據編碼方案,以便得到原始數據的簡化或“壓縮”,包括數據壓縮技術(小波變換和主成分分析)、屬性子集選擇和屬性構造,在數值歸約中,使用參數模型(回歸和對數線性模型)或非參數模型(直方圖、聚類、抽樣或數據聚集),用較小的表示取代數據。缺失值方法適用缺點忽略元組元組有多
14、個屬性缺少值忽略元組不能使用該元組剩余屬性值,這些數據可能有用人工填寫缺少數據少費時,數據集大缺失值多時不適用常量填充簡單不可靠中心度量填充正常數據適用均值,傾斜數據使用中位數數據不可靠同類樣本屬性均值或平均值填充給定類數據分布傾斜則選擇中位數數據不可靠最可能的值填充可以使用回歸、貝葉斯形式、決策樹歸納確定最流行但數據不可靠噪聲數據:被測量的變量的隨機誤差或方差。方法分箱考察數據鄰近值,進行局部光滑,有箱中位數光滑及箱邊界光滑回歸函數擬合數據來光滑數據離群點分析通過聚類來檢測離群點數據清理的第一步是偏差檢測,唯一性規(guī)則是指每個值都必須不同于該屬性的其他值,連續(xù)性規(guī)則是說屬性的最低和最高值之間沒
15、有缺失值,并且所有的值都必須是唯一的,空值規(guī)則是指空白、問號、特殊符號或指示空值條件的其他串的使用,以及如何處理這樣的值。有大量不同的商業(yè)工具可以幫助我們進行偏差監(jiān)測:數據清洗工具使用簡單的領域知識,檢查并糾正數據中的錯誤;數據審計工具通過分析數據發(fā)現規(guī)則和聯系,并檢測違反這些條件的數據來發(fā)現偏差;數據遷移工具允許簡單的變換;ETL工具允許用戶通過圖形用戶界面說明變換。(2)數據集成:合并來自多個數據存儲的數據,存放在一個一致的數據存儲中,如存放在數據倉庫中。冗余:一個屬性如果能由另一個或另一組屬性“導出”,則這個屬性可能是冗余的。有些冗余可以被相關分析檢測,對于標稱數據,我們使用卡方檢驗,對
16、于數值屬性,我們使用相關系數或協方差;標稱數據的卡方檢驗:將兩個數據元組用相依表顯示;數值數據的相關系數:相關系數越大,相關性越強,可以作為冗余而被刪除;數值數據的協方差:(3) 數據歸約數據歸約策略包括維歸約、數量歸約和數據壓縮。維歸約減少所考慮的隨機變量或屬性的個數,維歸約的方法包括小波變換和主成分分析;數量歸約用替代的、較小的數據表示形式替換原數據;數據壓縮使用變換,以便得到原數據的歸約或“壓縮”表示,分為有損和無損。小波變換是一種線性信號處理技術,小波變換后的數據可以截短,僅存放一小部分最強的小波系數,就能保留近似的壓縮數據,可以用于多維數據,如數據立方體。主成分分析搜索k個最能代表數
17、據的n維正交向量,其中kn,原數據投影到一個小得多的空間,導致維歸約?;具^程如下:1) 對輸入數據規(guī)范化,使得每個屬性都落入相同的區(qū)間2) 計算k個標準正交向量,作為規(guī)范化輸入數據的基。這些是單位向量,每一個都垂直于其他向量。這些向量稱為主成分。輸入數據是主成分的線性組合。3) 對主成分按照“重要性”降序排列,去掉較弱的成分來歸約數據。主成分分析能夠更好的處理稀疏數據,小波變換更適合高維數據。屬性子集選擇,通過刪除不相關或冗余的屬性減少數據量,選擇的目標是找出最小屬性集?;貧w和對數線性模型,可以用來近似給定的數據,在線性回歸中,對數據建模,使之擬合到一條直線。直方圖,屬性值劃分規(guī)則等寬、等頻
18、聚類,把數據元組看做對象,將對象劃分為群或簇,用數據的簇代表替換實際數據。抽樣,用數據小得多的隨機樣本表示大型數據集。數據立方體聚集3、數據變換與數據離散化 數據變換策略包括光滑、屬性構造、聚集、規(guī)范化、離散化、由標稱數據產生概念分層第4章 數據倉庫與聯機分析處理1、 什么是數據倉庫?數據倉庫是一種數據庫,它與單位的操作數據庫分別維護。是一個面向主題的、集成的、時變的、非易失的數據集合,支持管理者的決策過程。通常只需要兩種數據訪問操作:數據的初始化裝入和數據訪問。我們把建立數據倉庫看做構建和使用數據倉庫的過程,數據倉庫的構建需要數據集成、數據清理和數據統(tǒng)一。2、 操作數據庫系統(tǒng)與數據倉庫的區(qū)別
19、?聯機操作數據庫系統(tǒng)的主要任務是執(zhí)行聯機事務和查詢處理,這種系統(tǒng)稱作聯機事務處理系統(tǒng)(OLTP),數據倉庫系統(tǒng)可以用不同的格式組織和提供給數據,以便滿足不同用戶的形形色色的需求,這種系統(tǒng)叫做聯機分析處理系統(tǒng)(OLAP)OLTPOLAP用戶和系統(tǒng)的面向性面向顧客用于辦事員、客戶和信息技術專業(yè)人員的事物和查詢處理面向市場用于知識工人(經理、主管和分析人員)的數據分析數據內容管理當前數據數據瑣碎,難以用于決策管理歷史數據提供匯總和聚集機制,易于有根據的決策數據庫設計實體-聯系(ER)數據模型面向應用的數據庫設計星形或雪花模型面向主題的數據庫設計視圖只關注一個企業(yè)或部門內部的當前數據常常跨越數據庫模式
20、的多個版本訪問模式主要是短的原子事務大部分是只讀操作3、 為什么需要分離的數據倉庫?分離的主要原因是有助于提高兩個系統(tǒng)的性能。1) 操作數據庫為已知的任務和負載設計,數據倉庫的查詢通常很復雜,在操作數據庫上處理OLAP查詢,可能會大大降低操作任務的性能2) 操作數據庫支持多事務的并發(fā)處理,需要并發(fā)控制和恢復機制,OLAP查詢只需要對匯總和聚集數據記錄進行只讀訪問,會大大降低OLTP系統(tǒng)的吞吐量3) 兩種系統(tǒng)中數據的結構、內容和用法都不相同4、 數據倉庫的結構?數據倉庫是一種多層次體系結構,通常采用三層體系結構:底層是倉庫數據庫服務器,使用后端工具和實用程序,由操作數據庫或其他外部數據源提取數據
21、,放入底層。中間層是OLAP服務器,典型實現使用關系OLAP模型或使用多維OLAP模型頂層是前端客戶層,包括查詢和報告工具、分析工具或數據挖掘工具。5、 數據倉庫模型?從結構的角度看,數據倉庫有三種模型:企業(yè)倉庫、數據集市和虛擬倉庫。企業(yè)倉庫:提供企業(yè)范圍內的數據集成,通常來自一個或多個操作數據庫系統(tǒng)或外部信息提供者,并且是多功能的。數據集市:包含企業(yè)范圍數據的一個子集,范圍限于選定的主題虛擬倉庫:虛擬倉庫是操作數據庫上視圖的集合對于開發(fā)數據倉庫系統(tǒng),一種推薦的方法是以遞增、進化的方式實現數據倉庫,首先在一個合理短的時間內定義一個高層次的企業(yè)數據模型,在不同的主題和可能的應用之間,提供企業(yè)范圍
22、的、一致的、集成的數據視圖。其次,基于相同的企業(yè)數據模型,并行的實現獨立的數據集市和企業(yè)數據倉庫,再次,通過中心服務器集成不同的數據集市,構造分布數據集市,最后構造一個多層數據倉庫元數據是關于數據的數據,在數據倉庫中,元數據是定義倉庫對象的數據。包括以下內容:數據倉庫結構的描述、操作元數據、用于匯總的算法、由操作環(huán)境到數據倉庫的映射、關于系統(tǒng)性能的數據、商務元數據。6、 數據倉庫建模數據倉庫和OLAP工具基于多維數據模型,這種模型將數據看做數據立方體形式。(1)數據立方體:允許以多維對數據建模和觀察,每個維都可以有一個與之相關聯的表(維表),n維數據立方體顯示成n-1維立方體的序列。(2)多維
23、數據模型的模式:最流行的數據倉庫的數據模型是多維數據模型,可以是星形模式、雪花模式或事實星座模式。星形模式,最常見的模型范型是星形模式,數據倉庫包括一個大的中心表(事實表),包含大批數據并且不含冗余,一組小的附屬表(維表),每維一個。雪花模式,是星形模式的變種,雪花模式的維表可能是規(guī)范化形式,以便減少冗余,這種表易于維護,并節(jié)省存儲空間。由于執(zhí)行查詢需要更多的連接操作,雪花結構可能降低瀏覽的效率,因此不如星形模式流行。事實星座,復雜的應用可能需要多個事實表共享維表,這種模式稱為星系模式或事實星座。數據倉庫收集了關于整個組織的主題信息,因此是企業(yè)范圍的,數據倉庫多選用星座模式;數據集市是數據倉庫
24、的一個部門子集,針對選定的主題,因此是部門范圍的,數據集市多采用星形或雪花模式(3) 維:概念分層的作用,概念分層定義一個映射序列,將低層概念集映射到較高層、更一般的概念(4) 度量的分類和計算,立方體度量是一個數值函數,該函數可以對數據立方體空間的每個點求值,度量根據其所用的聚集函數可以分為三類:分布的、代數的和整體的. 分布的,數據劃分成n個集合,將函數用于每一個部分,得到n個聚集值,如果函數用于n個聚集值得到的結果和將函數用于整個數據集得到的結果是一樣的,則該函數可以用分布方式計算。例如sum()、count()。代數的,一個聚集函數如果能夠用一個具有M個參數的代數函數計算,而每個參數都
25、可以用一個分布聚集函數求得,則它是代數的。例如avg()=sum()/count()整體的,一個聚集函數如果描述它的子聚集所需的存儲沒有一個常數界,則它是整體的。例如median()(5) 典型的OLAP操作,上卷操作通過延一個維的概念分層向上攀升或者通過維歸約在數據立方體上進行聚集;下鉆是上卷的逆操作;切片和切塊,切片操作在給定的立方體的一個維上進行選擇,導致一個子立方體;轉軸是一種目視操作,轉動數據的視角,提供數據的替代表示;其他OLAP操作,鉆過執(zhí)行涉及多個事實表的查詢,鉆透使用關系SQL機制,鉆透到數據立方體的底層,到后端關系表。 OLAP系統(tǒng)與統(tǒng)計數據庫(6) 查詢多維數據庫的星網查
26、詢模型 星網模型由從中心點發(fā)出的射線組成,其中每一條射線代表一個維的概念分層。7、數據倉庫的設計與使用關于數據倉庫的設計,必須考慮四種不同的視圖:自頂向下視圖、數據源視圖、數據倉庫視圖和商務查詢視圖。從軟件工程的角度看,數據倉庫的設計和構造包含以下步驟:規(guī)劃、需求研究、問題分析、倉庫設計、數據集成和測試、部署數據倉庫。大型軟件系統(tǒng)可以用兩種方法開發(fā):瀑布式方法和螺旋式方法。瀑布式方法在進行下一步之前,每一步都進行結構的和系統(tǒng)的分析,螺旋式方法實際功能漸增的系統(tǒng)的快速產生,相繼發(fā)布之間的間隔很短。在許多公司,數據倉庫用作企業(yè)管理的計劃執(zhí)行評估“閉環(huán)”反饋系統(tǒng)的必要部分。有三類數據倉庫應用:信息處
27、理、分析處理和數據挖掘。信息處理支持查詢和基本的統(tǒng)計分析,并使用交叉表、表、圖表或圖進行報告?;诓樵?,可以發(fā)現有用的信息;分析處理支持基本的OLAP操作,包括切片與切塊、下鉆、上卷和轉軸。由用戶選定的數據倉庫子集,在多粒度上導出匯總的信息。數據挖掘支持知識發(fā)現,包括找出隱藏的模式和關聯,構造分析模型,進行分類和預測,并使用可視化工具提供挖掘結果。8、 OLAP和數據挖掘相同嗎?OLAP是數據匯總/聚集工具,幫助簡化數據分析;數據挖掘自動發(fā)現隱藏在大量數據中的隱含模式和有趣知識。OLAP工具的目標是簡化和支持交互數據分析;數據挖掘工具的目標是盡可能自動處理,盡管允許用戶指導這一過程。數據挖掘包
28、含數據描述和數據建模,OLAP的功能基本上是用戶指導的匯總和比較。數據挖掘不限于分析存放在數據倉庫中的數據,可以分析比數據倉庫提供的匯總數據粒度更細的數據。也可以分析事務的、空間的、文本的和多媒體數據。9、 多維數據庫OLAM多維數據挖掘特別重要:數據倉庫中數據的高質量,環(huán)繞數據倉庫的信息處理基礎設施、基于OLAP的多維數據探索、數據挖掘功能的聯機選擇10、 數據倉庫的實現數據倉庫系統(tǒng)要支持高校的數據立方體計算技術、存取方法和查詢處理技術。(1) 數據立方體的有效計算多維數據分析的核心是有效計算許多維集合上的聚集,這些聚集稱為分組,每個分組用一個方體表示,分組的集合形成定義數據立方體的方體的格
29、。compute cube操作與維災難Compute cube操作在操作指定的維的所有子集上計算聚集。數據立方體是方體的格;對于不同的查詢,聯機分析處理可能需要訪問不同的方體。因此,提前計算所有的或者至少一部分方體是個好主意。預計算的主要挑戰(zhàn)是,如果數據立方體中素有的方體都預先計算,所需的存儲空間可能爆炸,特別是當立方體包含許多維時。這個問題成為維災難。如果每個維沒有概念分層,n維數據立方體有2n個方體;部分物化:方體的選擇計算給定基本方體,方體的物化有三種選擇:不物化、完全物化、部分物化。不物化即不預先計算任何“非基本”方體,這導致回答查詢時實時計算昂貴的多維聚集,速度非常慢;完全物化即預先
30、計算所有方體,需要海量存儲空間;部分物化即有選擇的計算整個可能的方體集中一個適當的子集,部分物化是存儲空間和響應時間兩者之間的折中。冰山立方體是一個數據立方體,只存放聚集值大于某個最小支持度閾值的立方體單元,外殼立方體涉及預計算數據立方體的只有少量維的方體。(2) 索引OLAP數據位圖索引,允許在數據立方體中快速搜索,如果給定的屬性域包含n個值,則位圖索引中每項需要n個位,如果數據表給定航上該屬性值為v,則在位圖索引的對應行,該值的位為1,該行的其他位均為0連接索引,登記來自關系數據庫的兩個關系的可連接行,連接索引可以跨越多維,形成復合連接索引。(3) OLAP查詢的有效處理物化方體和構造OL
31、AP索引結構的目的是加快數據立方體查詢處理的速度,查詢處理應首先確定哪些操作應當在可利用的方體上執(zhí)行,然后確定相關操作應當使用哪些物化的方體。(4) OLAP服務器結構:ROLAP/MOLAP/HOLAP的比較關系OLAP(ROLAP)服務器,一種中間服務器,使用關系的或擴充關系的DBMS存儲并管理數據倉庫數據,OLAP中間件支持其余部分多維OLAP(MOLAP)服務器,通過基于數組的多維存儲引擎,支持數據的多維視圖。多數都采用兩級存儲表示來處理稠密和稀疏數據集:識別較稠密的子立方體并作為數組結構存儲,而稀疏子立方體使用壓縮技術,提高存儲利用率混合OLAP(HOLAP)服務器,結合ROLAP和
32、MOLAP技術、特殊的SQL服務器,提供高級查詢語言和查詢處理,在只讀環(huán)境下,在星形和雪花形模式下支持SQL查詢。(5) 數據泛化:面向屬性的歸納數據泛化通過把相對底層的值用較高層概念替換來匯總數據,或通過減少維數,在涉及較少維數的概念空間匯總數據。概念描述,概念通常指數據的匯集,概念描述產生數據的特征和比較描述,當被描述的概念涉及對象類時,有時也稱概念描述為類描述。數據特征的面向屬性的歸納,數據立方體方法基本上是基于數據的物化視圖,通常在數據倉庫中預先計算,面向屬性的歸納基本上是面向查詢的、基于泛化的、聯機的數據分析處理技術。面向屬性歸納的基本思想是:首先使用數據庫查詢收集任務相關的數據,然
33、后通過考察任務相關數據中每個屬性的不同值的個數進行泛化。屬性刪除基于如下規(guī)則:如果出示工作關系的某個屬性有大量不同的值,但是在該屬性上并沒有泛化操作符,或者它的較高層概念用其他屬性表示,則應當將該屬性從工作關系中刪除屬性泛化基于以下規(guī)則:如果初始工作關系的某個屬性有大量不同的值,并且該屬性上存在泛化操作符的集合,則應當選擇一個泛化操作符,并將它用于該屬性。屬性泛化控制有兩種技術:屬性泛化閾值控制:對所有的屬性設置一個泛化閾值或對每個屬性設置一個閾值,如果屬性不同值個數大于該屬性泛化閾值,則進行進一步的屬性刪除或屬性泛化;廣義關系閾值控制:為廣義關系設置一個閾值,如果廣義關系中不同元組的個數超過
34、該閾值,則進一步泛化。這兩種技術可以順序使用,首先使用屬性泛化閾值控制技術泛化每個屬性,然后使用關系閾值控制進一步壓縮廣義關系。第5章 數據立方體1、 數據立方體計算:基本概念(1)立方體物化基本方體的單元是基本單元,非基本方體的單元是聚集單元。聚集單元在一個或多個維上聚集,其中每個聚集維用單元記號中的*指示。假設有一個n維數據立方體,令a=(a1,a2,.,an,measures)是一個單元,取自構成數據立方體的一個方體。如果a1,a2,.,an中恰有m(mn)個值不是*,則我們說a是m維單元,如果m=n,則a是基本單元;否則是聚集單元。完全預計算的立方體為完全立方體,部分物化的立方體為冰山
35、立方體。一種計算冰山立方體的樸素方法是,首先計算完全立方體,然后剪去不滿足冰山條件的單元。另一種有效的方法是直接計算冰山立方體,而不計算完全立方體。引入冰山立方體將減輕計算數據立方體中不重要聚集單元的負擔。(2) 數據立方體計算的一般策略1 排序、散列和分組,在立方體計算中,對共享一組相同維值的元組進行聚集,需要利用排序、散列和分組對數據進行訪問和分組,以便有利于聚集的計算2 同時聚集和緩存中間結果,從先前計算的較低層聚集而不是從基本事實表計算較高層聚集,從緩存的中間計算結果同時聚集可以減少開銷很大的磁盤IO操作3 當存在多個子女方體時,由最小的子女聚集。當存在多個子女方體時,由先前的最小子女
36、方體計算父母方體更有效。4 可以使用先驗剪枝方法有效的計算冰山立方體。對于數據立方體,先驗性質表述如下:如果給定的單元不滿足最小支持度,則該單元的后代也都不滿足最小支持度。通常的冰山條件是單元必須滿足最小支持度閾值,如最小計數或總和。2、數據立方體的計算方法 (1)完全立方體計算的多路數組聚集多路數組聚集方法使用多維數組作為基本的數據結構,計算完全數據立方體。第6章 挖掘頻繁模式、關聯和相關性:基本概念和方法頻繁模式是頻繁的出現在數據集中的模式,如果一個子結構頻繁出現,則稱它為(頻繁的)結構模式。對于挖掘數據之間的關聯、相關性和許多其他有趣的聯系,發(fā)現這種頻繁模式起著至關重要的作用。此外,它對
37、數據分類、聚類和其他數據挖掘任務也有幫助。1、 基本概念(1)規(guī)則的支持度和置信度是規(guī)則興趣度的兩種度量,分別反映所發(fā)現規(guī)則的有用性和確定性。在典型情況下,關聯規(guī)則被認為是有趣的,如果它滿足最小支持度閾值和最小置信度閾值。支持度置信度同時滿足最小支持度閾值和最小置信度閾值的規(guī)則稱為強規(guī)則,用0%100%之間的值表示。項的集合稱為項集,包含k個項的項集稱為k項集。項集的出現頻度是包含項集的事物數,簡稱為項集的頻度、支持度計數或計數。如果項集I的相對支持度滿足預定義的最小支持度閾值,則I是頻繁項集。頻繁k項集的集合通常記為LK??梢钥闯鲆?guī)則的置信度可以從A和AB的支持度計數推出,因此挖掘關聯規(guī)則可
38、以歸結為挖掘頻繁項集。(2)一般而言,關聯規(guī)則的挖掘是一個兩步的過程1、 找出所有的頻繁項集:根據定義,這些項集的每一個頻繁出現的次數至少與預定義的最小支持計數min_sup一樣2、 由頻繁項集產生強關聯規(guī)則:根據定義,這些規(guī)則必須滿足最小支持度和最小置信度。如果一個項集是頻繁的,則它的每個子集也是頻繁的,一個長項集將包含組合個數較短的頻繁子項集。項集X在數據集D中是閉的,如果不存在真超項集Y使得Y與X在D中具有相同的支持度計數,項集X是D中的閉頻繁項集,如果X在D中是閉的和頻繁的,項集X是D中的極大頻繁項集或極大項集。2、 頻繁項集挖掘方法挖掘最簡單形式的頻繁模式方法,Apriori算法是一
39、種發(fā)現頻繁項集的基本算法。(1) 通過限制候選產生發(fā)現頻繁項集Apriori算法是布爾關聯規(guī)則挖掘頻繁項集的原創(chuàng)性算法,算法使用頻繁項集性質的先驗知識,使用一種稱為逐層搜索的迭代方法,其中k項集用于探索k+1項集。首先,通過掃描數據庫,累計每個項的計數,并收集滿足最小支持度的項,找出頻繁1項集的集合。該集合記為L1。然后,使用L1找出頻繁2項集的集合L2,使用L2找出L3,如此下去,直到不能再找到頻繁k項集缺點:每找出一個Lk 需要一次數據庫掃描,為了提高頻繁項集逐層產生的效率,使用先驗性質壓縮搜索空間。先驗性質:頻繁項集的所有非空子集也一定是頻繁的。如果一個集合不能通過測試,則它的所有超集也
40、都不能通過測試。 如何使用LK-1找出LK?1、 連接步:為找出LK,通過將LK-1與自身連接產生候選k項集的集合。該候選項集的集合記為CK2、 剪枝步:CK是LK的超集。掃描數據庫,確定CK中每個候選的計數,從而確定LK(2)由頻繁項集產生關聯規(guī)則一旦由數據庫D中的事務找出頻繁項集,就可以直接由它們產生強關聯規(guī)則。根據上式,關聯規(guī)則可以產生如下:對于每個頻繁項集L,產生L的所有非空子集對于L的每個非空子集s,如果則輸出規(guī)則,其中min_conf是最小置信度閾值。(3) 提高Apriori算法的效率提高算法的效率需要一些變形。其中一些變形如下:基于散列的技術,一種基于散列的技術可以用于壓縮候選
41、k項集的集合CK事務壓縮,不包含任何頻繁k項集的事務不可能包含任何頻繁k+1項集。因此,這種事務在其后的考慮時,可以加上標記或刪除,因為產生j項集的數據庫掃描不再需要他們劃分,使用劃分技術,只需要掃描兩次數據庫就可以挖掘頻繁項集。首先,算法把D中的事務劃分成n個非重疊的分區(qū),如果D中事務的最小相對支持度閾值為min_sup,則每個分區(qū)的最小支持度計數為min_sup該分區(qū)中的事務數,對每個分區(qū),找出所有的局部頻繁項集。然后,第二次掃描D,評估每個候選的實際支持度,以確定全局頻繁項集。 抽樣,抽樣方法的基本思想是,選取給定數據庫D的隨機樣本S,然后在S而不是D中搜索頻繁項集。犧牲精度換取有效性,
42、可能丟失一些全局頻繁項集。為降低這種可能性,使用比最小支持度低的支持度閾值來找出S的局部頻繁項集。動態(tài)項集計數,將數據庫劃分為用開始點標記的塊??梢栽谌魏伍_始點添加新的候選項集(4) 挖掘頻繁項集的模式增長方法頻繁模式增長(FP-growth):首先,將代表頻繁項集的數據庫壓縮到一顆頻繁模式樹,概述仍保留項集的相關信息。然后,把這種壓縮后的數據庫劃分成一組條件數據庫,每個數據庫關聯一個頻繁項或模式段,并分別挖掘每個條件數據庫。(5) 使用垂直數據格式挖掘頻繁項集Apriori算法和FP-growth算法都從TID項集格式(TID:itemset)的事務集中挖掘頻繁模式,其中TID是事務標識符,
43、而itemset是事務TID中購買的商品,這種數據格式稱為水平數據格式?;蛘?,數據也可以用項-TID集格式item:TID_set表示,其中item是項的名稱,TID_set是包含item的事務的標識符的集合,這種格式稱為垂直數據格式。(6) 挖掘閉模式和極大模式從閉頻繁項集的集合可以很容易的推出頻繁項集的集合和它們的支持度。挖掘閉頻繁項集的一種樸素方法是,首先挖掘頻繁項集的完全集,然后刪除這樣的頻繁項集,它們是某個頻繁項集的真子集,并且具有相同支持度。 一種推薦的方法是在挖掘過程中直接搜索閉頻繁項集,在挖掘過程中,一旦識別閉項集就盡快對搜索空間進行剪枝。剪枝包括以下幾個策略:項合并,如果包含
44、頻繁項集X的每個事物都包含項集Y,但不包含Y的任何真超集,則XY形成一個閉頻繁項集,并且不必再搜索包含X但不包含Y的任何項集。子項集剪枝:如果頻繁項集X是一個已經發(fā)現的閉頻繁項集Y的真子集,并且support_count(X)=support_count(Y),則X和X在集合枚舉樹中的后代都不可能是閉頻繁項集,因此可以剪枝。項跳過:在深度優(yōu)先挖掘閉項集時,每一層都有一個與頭表和投影數據庫相關聯的前綴項集X。如果一個局部頻繁項P在不同層的多個頭表中都具有相同的支持度,則可以將P從較高層頭表中剪裁掉。3、 模式評估方法提升度是一種簡單的相關性度量,項集A的出現獨立于項集B的出現,如果P(AB)=P
45、(A)P(B);否則,作為事件,項集A和B是依賴的和相關的。A和B出現之間的提升度可以通過公式計算如果計算出的值小于1,則為負相關,意味著一個出現可能導致另一個不出現;如果計算出的值大于1,則A和B是正相關,意味著一個出現另一個也會出現;如果計算出的值等于1,則A和B是獨立的,它們之間沒有相關性。X2相關分析全置信度最大置信度余弦度量零事務是不包含任何考察項集的事務第7章 高級模式挖掘1. 挖掘模式大部分研究都主要關注模式挖掘的三個方面:所挖掘的模式類型、挖掘方法和應用。基于模式的多樣性,模式挖掘可以使用如下標準進行分類:基本模式:頻繁模式是滿足最小支持度閾值的模式。如果不存在與P具有相同支持
46、度的超模式P,模式P是一個閉模式。如果不存在P的頻繁超模式,模式P是一個極大模式。基于模式所涉及的抽象層:模式或關聯規(guī)則可能具有處于高、低或多個抽象層的項,則挖掘的規(guī)則集由多層關聯規(guī)則組成,反之,如果在給定的規(guī)則集中,規(guī)則不涉及不同抽象層的項或屬性,則該集合包含單層關聯規(guī)則。基于規(guī)則或模式所涉及的維數:如果關聯規(guī)則或模式中的項或屬性只涉及一個維,則它是單維關聯規(guī)則/模式。如果規(guī)則/模式涉及兩個或多個維,則它是多為關聯規(guī)則基于規(guī)則或模式中所處理的值類型:如果規(guī)則考慮的關聯是項是否出現,則為布爾關聯規(guī)則;如果規(guī)則描述的是量化的項或屬性之間的關聯,則它是量化關聯規(guī)則?;谕诰蜻x擇性模式的約束或標準:
47、被發(fā)現的模式或規(guī)則可以是基于約束的、近似的、壓縮的、近似匹配的。根據數據類型和所涉及的應用分類:基于所挖掘的數據類型和特征,在這種情況下,頻繁模式的挖掘本質上是頻繁項集挖掘,也可以挖掘結構模式,即結構數據集中的頻繁子結構?;趹妙I域的特定語義:多樣性的應用數據導致大量不同的模式挖掘方法基于數據分析的使用方法:頻繁模式挖掘充當中間步驟,作為分類的特征提取步驟使用為基于模式的分類,基于模式的聚類顯示了在聚類高維數據方面的優(yōu)勢2、多層、多維空間中的模式挖掘(1) 挖掘多層關聯規(guī)則 關注在多個抽象層以足夠的靈活性挖掘模式并易于在不同的抽象空間轉換的方法。在多個抽象層的數據上挖掘產生的關聯規(guī)則為多層關聯規(guī)則。對于所有層使用一致的最小支持度稱為一致支持度,即在每個抽象層上挖掘時,使用相同的最小支持度閾值。缺點是較低抽象層的項不大可能像較高抽象層的項那樣頻繁出現。如果最小支持度閾值設置太高,則可能錯失在較低抽象層中出現的有意義的關聯。如果閾值設置太低,則可能會產生出現在較高抽象層的無趣的關聯。在較低層使用遞減的最小支持度:抽象層越低,對應的閾值越小使用基于項或基于分組的最小支持度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院職工進修協議書
- 土地出售委托協議書
- 單位簽訂培訓協議書
- 動遷分房繼承協議書
- 地坪鋪設合同協議書
- 勞務分包清算協議書
- 公司設立專戶協議書
- 商鋪店面轉租協議書
- 單位改制移交協議書
- 合伙終止后續(xù)協議書
- 2024年延安通和電業(yè)有限責任公司招聘筆試真題
- 液壓油供應合同協議
- 2025-2030煤油產業(yè)規(guī)劃專項研究報告
- 香港勞務服務合同協議
- 園林噴灑器企業(yè)數字化轉型與智慧升級戰(zhàn)略研究報告
- GB/T 9065.2-2025液壓傳動連接軟管接頭第2部分:24°錐形
- 道路運輸汛期教育培訓
- 患者投訴處理與護理試題及答案
- 期中考試考后分析總結主題班會《全員出動尋找消失的分數》
- 房地產市場報告 -2025年第一季度青島寫字樓和零售物業(yè)市場概況報告
- 2025軌道車司機(技師)重點考試題庫及答案(濃縮300題)
評論
0/150
提交評論