




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘技術(shù)從數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式和知識(shí)課程介紹與大綱基礎(chǔ)理論數(shù)據(jù)挖掘概念、流程和前置知識(shí)核心技術(shù)分類、聚類、關(guān)聯(lián)規(guī)則、回歸分析等算法高級(jí)方法集成學(xué)習(xí)、深度學(xué)習(xí)、大規(guī)模數(shù)據(jù)處理實(shí)踐應(yīng)用什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的定義從大量數(shù)據(jù)中提取模式和知識(shí)的過(guò)程非平凡信息的自動(dòng)化發(fā)現(xiàn)結(jié)合多學(xué)科技術(shù)的交叉領(lǐng)域數(shù)據(jù)挖掘的目標(biāo)預(yù)測(cè)未知或未來(lái)的數(shù)據(jù)值識(shí)別異常行為和模式發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)關(guān)系數(shù)據(jù)挖掘的重要性大數(shù)據(jù)時(shí)代的需求數(shù)據(jù)量呈爆炸性增長(zhǎng)傳統(tǒng)分析方法難以應(yīng)對(duì)需要自動(dòng)化智能分析工具商業(yè)價(jià)值提升決策質(zhì)量發(fā)現(xiàn)市場(chǎng)機(jī)會(huì)優(yōu)化業(yè)務(wù)流程數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域金融領(lǐng)域風(fēng)險(xiǎn)評(píng)估欺詐檢測(cè)客戶細(xì)分零售行業(yè)市場(chǎng)籃分析推薦系統(tǒng)銷售預(yù)測(cè)醫(yī)療健康疾病預(yù)測(cè)藥物研發(fā)醫(yī)療圖像分析教育行業(yè)學(xué)習(xí)行為分析個(gè)性化教學(xué)數(shù)據(jù)挖掘的一般流程數(shù)據(jù)收集確定數(shù)據(jù)源數(shù)據(jù)預(yù)處理清洗轉(zhuǎn)換集成模型構(gòu)建選擇算法訓(xùn)練模型結(jié)果評(píng)估數(shù)據(jù)收集與預(yù)處理數(shù)據(jù)來(lái)源企業(yè)內(nèi)部數(shù)據(jù)庫(kù)網(wǎng)絡(luò)爬蟲(chóng)收集物聯(lián)網(wǎng)設(shè)備第三方數(shù)據(jù)平臺(tái)公開(kāi)數(shù)據(jù)集數(shù)據(jù)清洗處理缺失值去除噪聲識(shí)別并修正異常值處理不一致數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換與集成特征選擇剔除無(wú)關(guān)特征識(shí)別重要屬性降低數(shù)據(jù)維度數(shù)據(jù)規(guī)范化最小-最大規(guī)范化Z-score標(biāo)準(zhǔn)化小數(shù)定標(biāo)規(guī)范化數(shù)據(jù)集成合并多源數(shù)據(jù)解決數(shù)據(jù)冗余數(shù)據(jù)挖掘模型構(gòu)建確定挖掘任務(wù)分類、聚類、關(guān)聯(lián)規(guī)則還是回歸選擇合適算法根據(jù)任務(wù)和數(shù)據(jù)特點(diǎn)選擇參數(shù)調(diào)優(yōu)設(shè)置合適參數(shù)提高性能模型訓(xùn)練使用訓(xùn)練集構(gòu)建模型模型測(cè)試結(jié)果評(píng)估與解釋業(yè)務(wù)理解轉(zhuǎn)化為可行業(yè)務(wù)洞見(jiàn)結(jié)果解釋用業(yè)務(wù)語(yǔ)言描述發(fā)現(xiàn)效果驗(yàn)證測(cè)試集評(píng)估模型性能評(píng)估指標(biāo)數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介定義與特點(diǎn)面向主題的數(shù)據(jù)集合集成的相對(duì)穩(wěn)定的反映歷史變化的支持決策的數(shù)據(jù)環(huán)境與數(shù)據(jù)挖掘的關(guān)系提供清洗整合的數(shù)據(jù)源支持多維數(shù)據(jù)分析為挖掘提供歷史數(shù)據(jù)存儲(chǔ)挖掘結(jié)果數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)數(shù)據(jù)源層業(yè)務(wù)系統(tǒng)、外部數(shù)據(jù)ETL層數(shù)據(jù)抽取轉(zhuǎn)換加載數(shù)據(jù)存儲(chǔ)層星型模型、雪花模型數(shù)據(jù)訪問(wèn)層OLAP與OLTP的比較特征OLTPOLAP主要功能日常交易處理復(fù)雜分析查詢數(shù)據(jù)特點(diǎn)當(dāng)前數(shù)據(jù)歷史匯總數(shù)據(jù)數(shù)據(jù)更新頻繁批量定期響應(yīng)時(shí)間毫秒級(jí)秒到分鐘用戶類型操作人員分類技術(shù)概述學(xué)習(xí)階段從已標(biāo)記數(shù)據(jù)構(gòu)建模型分類器將新實(shí)例映射到類別測(cè)試階段評(píng)估分類準(zhǔn)確性優(yōu)化階段決策樹(shù)算法ID3算法基于信息增益選擇屬性傾向選擇取值多的屬性C4.5算法使用增益率克服ID3缺點(diǎn)能處理連續(xù)屬性CART算法生成二叉樹(shù)決策樹(shù)構(gòu)建過(guò)程準(zhǔn)備訓(xùn)練數(shù)據(jù)包含特征和目標(biāo)類別選擇最佳分裂屬性計(jì)算信息增益或增益率數(shù)據(jù)集分裂根據(jù)選定屬性劃分子集遞歸構(gòu)建子樹(shù)對(duì)每個(gè)子集重復(fù)過(guò)程停止條件節(jié)點(diǎn)純凈或達(dá)到最大深度決策樹(shù)剪枝技術(shù)預(yù)剪枝在構(gòu)建過(guò)程中停止生長(zhǎng)設(shè)置最小樣本數(shù)閾值限制樹(shù)的最大深度信息增益小于閾值停止后剪枝先構(gòu)建完整樹(shù)再修剪悲觀誤差估計(jì)代價(jià)復(fù)雜度剪枝錯(cuò)誤率降低則替換子樹(shù)樸素貝葉斯分類器基本原理基于貝葉斯定理假設(shè)特征條件獨(dú)立優(yōu)點(diǎn)算法簡(jiǎn)單高效少量訓(xùn)練數(shù)據(jù)即可對(duì)缺失數(shù)據(jù)不敏感局限性特征獨(dú)立性假設(shè)過(guò)強(qiáng)零概率問(wèn)題應(yīng)用場(chǎng)景文本分類垃圾郵件過(guò)濾情感分析支持向量機(jī)(SVM)原理最大間隔分類尋找最優(yōu)超平面最大化類別間距離支持向量最接近決策邊界的樣本點(diǎn)決定超平面位置核技巧將低維數(shù)據(jù)映射到高維空間解決非線性分類問(wèn)題SVM核函數(shù)選擇線性核線性可分問(wèn)題1多項(xiàng)式核低維非線性問(wèn)題2徑向基函數(shù)復(fù)雜非線性問(wèn)題3Sigmoid核類神經(jīng)網(wǎng)絡(luò)效果4K近鄰(KNN)算法1尋找最近鄰計(jì)算樣本間距離K選擇參數(shù)K確定考慮的鄰居數(shù)量3距離度量歐氏距離、曼哈頓距離等5投票決策按鄰居多數(shù)類別分類神經(jīng)網(wǎng)絡(luò)基礎(chǔ)基本組成神經(jīng)元(節(jié)點(diǎn))連接權(quán)重激活函數(shù)網(wǎng)絡(luò)層次結(jié)構(gòu)工作機(jī)制輸入特征加權(quán)求和通過(guò)激活函數(shù)變換生成輸出信號(hào)反向傳播調(diào)整權(quán)重多層感知器(MLP)輸入層接收原始數(shù)據(jù)隱藏層特征提取轉(zhuǎn)換輸出層生成預(yù)測(cè)結(jié)果通過(guò)反向傳播算法訓(xùn)練可解決非線性分類問(wèn)題適用于復(fù)雜模式識(shí)別任務(wù)深度學(xué)習(xí)簡(jiǎn)介應(yīng)用領(lǐng)域計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理模型架構(gòu)CNN、RNN、Transformer深層結(jié)構(gòu)多隱藏層自動(dòng)提取特征核心思想多層次特征學(xué)習(xí)聚類分析概述定義將數(shù)據(jù)劃分為相似組無(wú)監(jiān)督學(xué)習(xí)方法目標(biāo)組內(nèi)相似度高組間相似度低應(yīng)用場(chǎng)景客戶分群圖像分割異常檢測(cè)K-means算法初始化隨機(jī)選擇K個(gè)中心點(diǎn)分配將點(diǎn)分配到最近中心更新重新計(jì)算各簇中心點(diǎn)迭代重復(fù)直到收斂層次聚類方法自下而上(凝聚)起始每點(diǎn)一簇逐步合并最相似簇構(gòu)建聚類樹(shù)自上而下(分裂)起始所有點(diǎn)一簇逐步分裂不相似簇形成層次結(jié)構(gòu)主要距離度量方法單鏈接全鏈接平均鏈接Ward方法DBSCAN密度聚類核心思想基于密度的聚類發(fā)現(xiàn)任意形狀簇關(guān)鍵參數(shù)Eps:鄰域半徑MinPts:最小點(diǎn)數(shù)點(diǎn)的分類核心點(diǎn)邊界點(diǎn)噪聲點(diǎn)優(yōu)勢(shì)不需預(yù)設(shè)簇?cái)?shù)抗噪聲能力強(qiáng)發(fā)現(xiàn)不規(guī)則簇聚類算法評(píng)估指標(biāo)2評(píng)估類型內(nèi)部評(píng)估、外部評(píng)估0-1輪廓系數(shù)衡量簇內(nèi)緊密度與簇間分離度0+Davies-Bouldin指數(shù)較小值表示更好聚類1.0蘭德指數(shù)與參考分類的一致性關(guān)聯(lián)規(guī)則挖掘概念發(fā)現(xiàn)項(xiàng)目間的關(guān)聯(lián)關(guān)系形式:X→Y表示:若X出現(xiàn)則Y可能出現(xiàn)應(yīng)用購(gòu)物籃分析交叉銷售商品布局優(yōu)化推薦系統(tǒng)網(wǎng)站導(dǎo)航設(shè)計(jì)Apriori算法掃描數(shù)據(jù)庫(kù)計(jì)算單項(xiàng)頻繁項(xiàng)集候選生成根據(jù)頻繁項(xiàng)集組合新候選剪枝剔除不可能頻繁的候選支持度計(jì)數(shù)計(jì)算候選項(xiàng)集支持度識(shí)別頻繁項(xiàng)確定符合最小支持度的項(xiàng)集FP-Growth算法基本思想無(wú)需生成候選項(xiàng)集使用FP樹(shù)壓縮數(shù)據(jù)表示兩階段處理構(gòu)建FP樹(shù)從FP樹(shù)挖掘頻繁模式優(yōu)勢(shì)比Apriori更高效減少數(shù)據(jù)庫(kù)掃描次數(shù)壓縮數(shù)據(jù)結(jié)構(gòu)關(guān)聯(lián)規(guī)則評(píng)估指標(biāo)0.05支持度(Support)規(guī)則在所有交易中出現(xiàn)的頻率0.8置信度(Confidence)規(guī)則條件成立時(shí)結(jié)論成立的概率1.2提升度(Lift)規(guī)則相對(duì)于隨機(jī)情況的改進(jìn)程度0.75確信度(Conviction)比較規(guī)則失效頻率序列模式挖掘1定義發(fā)現(xiàn)有序事件序列中的模式2算法GSP、SPADE、PrefixSpan3應(yīng)用網(wǎng)頁(yè)點(diǎn)擊路徑分析用戶行為預(yù)測(cè)4挑戰(zhàn)時(shí)間約束處理計(jì)算復(fù)雜度高回歸分析基礎(chǔ)定義預(yù)測(cè)連續(xù)值的監(jiān)督學(xué)習(xí)方法建立自變量與因變量關(guān)系模型類型簡(jiǎn)單線性回歸多元線性回歸多項(xiàng)式回歸非線性回歸線性回歸X值實(shí)際Y值預(yù)測(cè)Y值模型方程Y=β?+β?X?+β?X?+...+ε參數(shù)估計(jì)最小二乘法求解評(píng)估指標(biāo)均方誤差、R2決定系數(shù)邏輯回歸基本原理線性回歸輸出通過(guò)Sigmoid函數(shù)變換預(yù)測(cè)樣本屬于某類的概率概率大于0.5判為正類特點(diǎn)與應(yīng)用解決二分類問(wèn)題可擴(kuò)展為多分類提供概率輸出信用評(píng)分醫(yī)療診斷回歸樹(shù)與模型樹(shù)回歸樹(shù)葉節(jié)點(diǎn)是常數(shù)值CART算法常用適合非線性關(guān)系模型樹(shù)葉節(jié)點(diǎn)是線性模型M5算法實(shí)現(xiàn)結(jié)合樹(shù)與線性回歸優(yōu)點(diǎn)優(yōu)勢(shì)易于理解處理缺失值預(yù)測(cè)速度快時(shí)間序列分析原始序列季節(jié)性趨勢(shì)組成成分趨勢(shì)、季節(jié)性、周期性、隨機(jī)波動(dòng)常用方法ARIMA、指數(shù)平滑、GARCH異常檢測(cè)技術(shù)統(tǒng)計(jì)方法Z-score、箱線圖基于假設(shè)檢驗(yàn)基于距離KNN、LOF算法評(píng)估局部密度基于密度DBSCAN變體識(shí)別低密度區(qū)域3基于模型SVM、孤立森林一類分類方法數(shù)據(jù)可視化方法散點(diǎn)圖顯示兩變量關(guān)系熱力圖展示數(shù)據(jù)密度分布平行坐標(biāo)多維數(shù)據(jù)模式識(shí)別網(wǎng)絡(luò)圖展示對(duì)象間關(guān)系降維技術(shù)PCA主成分分析最大方差方向投影線性降維方法保留最大信息量特征不相關(guān)LDA線性判別分析監(jiān)督降維方法最大化類間距離最小化類內(nèi)距離考慮類別信息特征選擇與提取過(guò)濾法基于統(tǒng)計(jì)指標(biāo)篩選卡方檢驗(yàn)、信息增益包裝法使用目標(biāo)算法評(píng)估遞歸特征消除嵌入法學(xué)習(xí)過(guò)程中選擇帶正則化的模型集成學(xué)習(xí)概述構(gòu)建多樣性模型不同數(shù)據(jù)子集或特征1獨(dú)立訓(xùn)練基學(xué)習(xí)器決策樹(shù)、神經(jīng)網(wǎng)絡(luò)等結(jié)合多個(gè)模型投票、加權(quán)平均等提高整體性能降低方差和偏差4Bagging方法基本思想自助采樣構(gòu)建多樣性并行訓(xùn)練基學(xué)習(xí)器實(shí)現(xiàn)步驟有放回抽樣訓(xùn)練獨(dú)立模型投票或平均結(jié)合典型算法隨機(jī)森林Pasting隨機(jī)子空間優(yōu)勢(shì)降低過(guò)擬合風(fēng)險(xiǎn)提高泛化能力易于并行實(shí)現(xiàn)Boosting算法1序列訓(xùn)練基學(xué)習(xí)器按順序生成2樣本加權(quán)關(guān)注難分樣本3加權(quán)投票表現(xiàn)好的模型權(quán)重大AdaBoost調(diào)整樣本權(quán)重指數(shù)損失函數(shù)早期經(jīng)典算法GradientBoosting擬合殘差梯度下降思想更靈活的損失函數(shù)隨機(jī)森林基本組成多棵決策樹(shù)組成結(jié)合Bagging和隨機(jī)特征選擇樣本采樣有放回抽樣構(gòu)建訓(xùn)練集約1/3樣本作為袋外數(shù)據(jù)特征選擇每個(gè)節(jié)點(diǎn)隨機(jī)選擇特征子集增加樹(shù)的多樣性預(yù)測(cè)方式分類問(wèn)題投票回歸問(wèn)題平均模型評(píng)估方法交叉驗(yàn)證K折交叉驗(yàn)證留一法重復(fù)隨機(jī)抽樣更可靠的模型評(píng)估ROC曲線真正率vs假正率AUC值越大越好評(píng)估二分類性能對(duì)不平衡數(shù)據(jù)不敏感過(guò)擬合與欠擬合欠擬合模型過(guò)于簡(jiǎn)單訓(xùn)練集表現(xiàn)差偏差大方差小適度擬合模型復(fù)雜度適中泛化能力最佳偏差方差平衡過(guò)擬合模型過(guò)于復(fù)雜記住訓(xùn)練數(shù)據(jù)噪聲偏差小方差大處理不平衡數(shù)據(jù)數(shù)據(jù)層面欠采樣多數(shù)類過(guò)采樣少數(shù)類SMOTE生成合成樣本算法層面調(diào)整類別權(quán)重代價(jià)敏感學(xué)習(xí)閾值移動(dòng)法集成方法Bagging解決樣本不平衡Boosting關(guān)注困難樣本使用多種分類器組合大規(guī)模數(shù)據(jù)挖掘高效算法在線算法、近似算法數(shù)據(jù)抽樣代表性樣本子集訓(xùn)練并行計(jì)算分布式框架處理分布式存儲(chǔ)數(shù)據(jù)分片存儲(chǔ)與管理分布式數(shù)據(jù)挖掘框架Hadoop批處理框架Spark內(nèi)存計(jì)算框架Flink流批一體框架Storm實(shí)時(shí)流處理框架隱私保護(hù)數(shù)據(jù)挖掘技術(shù)方法數(shù)據(jù)匿名化差分隱私安全多方計(jì)算聯(lián)邦學(xué)習(xí)零知識(shí)證明挑戰(zhàn)與平衡隱私與效用權(quán)衡隱私泄露風(fēng)險(xiǎn)計(jì)算效率問(wèn)題監(jiān)管合規(guī)要求用戶信任建立文本挖掘技術(shù)1文本預(yù)處理分詞、去停用詞、詞形還原2特征表示詞袋模型、TF-IDF、詞嵌入文本分析分類、聚類、情感分析、主題建模社交網(wǎng)絡(luò)分析網(wǎng)絡(luò)表示節(jié)點(diǎn)與邊有向與無(wú)向圖中心性分析度中心性接近中心性中介中心性社區(qū)發(fā)現(xiàn)模塊度最大化社區(qū)內(nèi)部緊密社區(qū)間松散影響力分析關(guān)鍵節(jié)點(diǎn)識(shí)別信息擴(kuò)散模擬推薦系統(tǒng)原理數(shù)據(jù)收集用戶行為、特征信息模型構(gòu)建協(xié)同過(guò)濾、內(nèi)容推薦生成推薦排序、多樣性、新穎性3反饋優(yōu)化評(píng)估調(diào)整改進(jìn)數(shù)據(jù)挖掘工具介紹R語(yǔ)言統(tǒng)計(jì)分析強(qiáng)大可視化能力優(yōu)秀Python生態(tài)系統(tǒng)豐富
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 陜西省西安市蓮湖區(qū)重點(diǎn)名校2025年初三下學(xué)期第三次考試語(yǔ)文試題試卷含解析
- 江蘇省揚(yáng)州市儀征市2025屆普通高中初三線上統(tǒng)一測(cè)試生物試題理試題含解析
- 閩南師范大學(xué)《專業(yè)軟件應(yīng)用(水文與水資源工程)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年音樂(lè)藝術(shù)專業(yè)基礎(chǔ)知識(shí)考試試卷及答案
- 呂梁學(xué)院《混凝土結(jié)構(gòu)與砌體結(jié)構(gòu)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年市場(chǎng)營(yíng)銷專業(yè)碩士入學(xué)考試試卷及答案
- 塔里木職業(yè)技術(shù)學(xué)院《生物醫(yī)學(xué)專題》2023-2024學(xué)年第二學(xué)期期末試卷
- 沙洲職業(yè)工學(xué)院《西醫(yī)外科學(xué)A》2023-2024學(xué)年第一學(xué)期期末試卷
- 天津農(nóng)學(xué)院《英語(yǔ)寫作基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 山西省晉中市2025屆高中畢業(yè)班第一次模擬(語(yǔ)文試題文)試卷含解析
- 2025國(guó)際護(hù)士節(jié)護(hù)士壓力與情緒管理講座課件
- 2025年消防設(shè)施操作員(監(jiān)控類)考試復(fù)習(xí)重點(diǎn)題(附答案)
- (二模)2025年深圳市高三年級(jí)第二次調(diào)研考試政治試卷(含答案)
- 2025年山東省應(yīng)急管理普法知識(shí)競(jìng)賽參考試題庫(kù)大全-上(單選題)
- 102解二元一次方程組【10個(gè)必考點(diǎn)】(必考點(diǎn)分類集訓(xùn))(人教版2024)
- 鄰水現(xiàn)代農(nóng)業(yè)發(fā)展集團(tuán)有限公司招聘筆試題庫(kù)2025
- 鄰水國(guó)有資產(chǎn)經(jīng)營(yíng)管理集團(tuán)有限公司2025年公開(kāi)考試招聘工作人員(8人)筆試參考題庫(kù)附帶答案詳解
- 檔案管理員工作
- SF-36生活質(zhì)量調(diào)查表(SF-36-含評(píng)分細(xì)則)
- 中國(guó)古建筑文化與鑒賞智慧樹(shù)知到期末考試答案章節(jié)答案2024年清華大學(xué)
- 30題紀(jì)檢監(jiān)察位崗位常見(jiàn)面試問(wèn)題含HR問(wèn)題考察點(diǎn)及參考回答
評(píng)論
0/150
提交評(píng)論