數(shù)據(jù)挖掘入門教程是什么_第1頁
數(shù)據(jù)挖掘入門教程是什么_第2頁
數(shù)據(jù)挖掘入門教程是什么_第3頁
數(shù)據(jù)挖掘入門教程是什么_第4頁
數(shù)據(jù)挖掘入門教程是什么_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘入門教程是什么近幾年,大數(shù)據(jù)被炒得火熱,一大批“不明覺厲”的朋友蜂擁而至,希望能 進入這個行業(yè)大撈一把, 但眾多撞破頭也沒擠進去。 根本原因就是根本沒有理解 什么是數(shù)據(jù)挖掘, 理解數(shù)據(jù)挖掘的相關(guān)概念, 所以, 今天小編就為大家講幾點數(shù) 據(jù)挖掘的入門必知的概念。1、 DataMining 和統(tǒng)計分析有什么不同?硬要去區(qū)分 DataMining 和 Statistics 的差異其實是沒有太大意義的。 一般 將之定義為 DataMining 技術(shù)的 CART 、 CHAID 或模糊計算等等理論方法,也 都是由統(tǒng)計學(xué)者根據(jù)統(tǒng)計理論所發(fā)展衍生, 換另一個角度看, DataMining 有相 當(dāng)大

2、的比重是由高等統(tǒng)計學(xué)中的多變量分析所支撐。 但是為什么 DataMining 的 出現(xiàn)會引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計分析而言, DataMining 有下列幾項特性:處理大量實際數(shù)據(jù)更強勢, 且無須太專業(yè)的統(tǒng)計背景去使用 DataMining 的 工具;數(shù)據(jù)分析趨勢為從大型數(shù)據(jù)庫抓取所需數(shù)據(jù)并使用專屬計算機分析軟件, DataMining 的工具更符合企業(yè)需求;純就理論的基礎(chǔ)點來看, DataMining 和統(tǒng)計分析有應(yīng)用上的差別,畢竟 DataMining 目的是方便企業(yè)終端用戶使用而非給統(tǒng)計學(xué)家檢測用的。 2、 OLAP 能不能代替 DataMining ?所謂 OLA

3、P (OnlineAnalyticalProcess 意指由數(shù)據(jù)庫所連結(jié)出來的在線 分析處理程序。有些人會說:我已經(jīng)有 OLAP 的工具了,所以我不需要 DataMining 。 事實上兩者間是截然不同的,主要差異在于 DataMining 用在 產(chǎn)生假設(shè), OLAP 則用于查證假設(shè)。簡單來說, OLAP 是由使用者所主導(dǎo),使用 者先有一些假設(shè),然后利用 OLAP 來查證假設(shè)是否成立;而 DataMining 則是 用來幫助使用者產(chǎn)生假設(shè)。所以在使用 OLAP 或其它 Query 的工具時,使用者 是自己在做探索(Exploration ,但 DataMining 是用工具在幫助做探索。 舉個

4、例子來看, 一市場分析師在為超市規(guī)劃貨品架柜擺設(shè)時, 可能會先假設(shè) 嬰兒尿布和嬰兒奶粉會是常被一起購買的產(chǎn)品,接著便可利用 OLAP 的工具去 驗證此假設(shè)是否為真,又成立的證據(jù)有多明顯;但 DataMining 則不然,執(zhí)行 DataMining 的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果, 透過 Mining 技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則, 于是我們可能得到例如尿布 和啤酒常被同時購買的意料外之發(fā)現(xiàn), 這是 OLAP 所做不到的。 DataMining常能挖掘出超越歸納范圍的關(guān)系,但 OLAP 僅能利用人工查詢及可視化的報表來 確認(rèn)某些關(guān)系,是以 DataMining 此種

5、自動找出甚至不會被懷疑過的數(shù)據(jù)模型 與關(guān)系的特性,事實上已超越了我們經(jīng)驗、教育、想象力的限制, OLAP 可以和 DataMining 互補,但這項特性是 DataMining 無法被 OLAP 取代的。 3、完整的 DataMining 包含哪些步驟?以下提供一個 DataMining 的進行步驟以為參考:理解業(yè)務(wù)與理解數(shù)據(jù);獲取相關(guān)技術(shù)與知識;整合與查詢數(shù)據(jù);去除錯誤或不一致及不完整的數(shù)據(jù);由數(shù)據(jù)選取樣本先行試驗;建立數(shù)據(jù)模型實際 DataMining 的分析工作;測試與檢驗;找出假設(shè)并提出解釋;持續(xù)應(yīng)用于企業(yè)流程中。由上述步驟可看出, DataMining 牽涉了大量的準(zhǔn)備工作與規(guī)劃過程

6、, 事實 上許多專家皆認(rèn)為整套 DataMining 的進行有 80%的時間精力是花費在數(shù)據(jù)前 置作業(yè)階段,其中包含數(shù)據(jù)的凈化與格式轉(zhuǎn)換甚或表格的連結(jié)。由此可知 DataMining 只是信息挖掘過程中的一個步驟而已, 在進行此步驟前還有許多的 工作要先完成。 4、 DataMining 包含哪些主要功能?DataMining 實際應(yīng)用功能可分為三大類六分項來說明:Classification 和 Clustering 屬于分類區(qū)隔類; Regression 和 Time-series 屬于推算預(yù)測類; Association 和 Sequence 則屬于序列規(guī)則類。Classificatio

7、n 是根據(jù)一些變量的數(shù)值做計算, 再依照結(jié)果作分類。 (計算的 結(jié)果最后會被分類為幾個少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為“可能會響應(yīng)” 或是 “可能不會響應(yīng)” 兩類 。 Classification 常被用來處理如前所述之郵寄對象 篩選的問題。我們會用一些根據(jù)歷史經(jīng)驗已經(jīng)分類好的數(shù)據(jù)來研究它們的特征, 然后再根據(jù)這些特征對其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測。 這些我們用來尋找特 征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的客戶數(shù)據(jù), 或是將一個完整數(shù)據(jù)庫做部 份取樣, 再經(jīng)由實際的運作來測試; 譬如利用一個大型郵寄對象數(shù)據(jù)庫的部份取 樣來建立一個 ClassificationModel ,再利用這個 Mo

8、del 來對數(shù)據(jù)庫的其它數(shù) 據(jù)或是新的數(shù)據(jù)作分類預(yù)測。Clustering 用在將數(shù)據(jù)分群, 其目的在于將群間的差異找出來, 同時也將群 內(nèi)成員的相似性找出來。 Clustering 與 Classification 不同的是,在分析前并不 知道會以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識來解讀這些分群的意義。 Regression 是使用一系列的現(xiàn)有數(shù)值來預(yù)測一個連續(xù)數(shù)值的可能值。若將 范圍擴大亦可利用 LogisticRegression 來預(yù)測類別變量,特別在廣泛運用現(xiàn)代 分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具, 推估預(yù)測的模式已不在止于傳 統(tǒng)線性的局限,在預(yù)測的功能上大大增

9、加了選擇工具的彈性與應(yīng)用范圍的廣度。Time-SeriesForecasting 與 Regression 功能類似, 只是它是用現(xiàn)有的數(shù)值 來預(yù)測未來的數(shù)值。兩者最大差異在于 Time-Series 所分析的數(shù)值都與時間有 關(guān)。 Time-SeriesForecasting 的工具可以處理有關(guān)時間的一些特性,譬如時間 的周期性、 階層性、 季節(jié)性以及其它的一些特別因素 (如過去與未來的關(guān)連性 。Association 是要找出在某一事件或是數(shù)據(jù)中會同時出現(xiàn)的東西。 舉例而言, 如果 A 是某一事件的一種選擇,則 B 也出現(xiàn)在該事件中的機率有多少。 (例如:如果顧客買了火腿和柳橙汁,那么這個顧

10、客同時也會買牛奶的機率是 85%。 SequenceDiscovery 與 Association 關(guān)系很密切,所不同的是 Sequence Discovery 中事件的相關(guān)是以時間因素來作區(qū)隔 (例如:如果 A股票在某一天上千鋒 大數(shù)據(jù) 視頻教程 漲 12%, 而且當(dāng)天股市加權(quán)指數(shù)下降, 則 B 股票在兩天之內(nèi)上漲的機率是 68%) 5、Data Warehousing 和 Data Mining 的關(guān)系為何? 若將 Data Warehousing(數(shù)據(jù)倉庫)比喻作礦坑,Data Mining 就是深 入礦坑采礦的工作。畢竟 Data Mining 不是一種無中生有的魔術(shù),也不是點石 成金

11、的煉金術(shù),若沒有夠豐富完整的數(shù)據(jù),是很難期待 Data Mining 能挖掘出 什么有意義的信息的。 要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技 的進步,功能完善的數(shù)據(jù)庫系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉庫,簡單 地說,就是搜集來自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲存區(qū)內(nèi)。所以其實 就是一個經(jīng)過處理整合, 且容量特別大的關(guān)系型數(shù)據(jù)庫,用以儲存決策支持系統(tǒng) (Design Support System)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息 技術(shù)的角度來看,數(shù)據(jù)倉庫的目標(biāo)是在組織中,在正確的時間,將正確的數(shù)據(jù)交 給正確的人。 許多人對于 Data Warehousing 和 Data Mining 時?;煜?不知如何分辨。 其實,數(shù)據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一個新主題,利用計算機系統(tǒng)幫助我們操作、計 算和思考,讓作業(yè)方式改變,決策方式也跟著改變。 數(shù)據(jù)倉庫本身是一個非常大的數(shù)據(jù)庫,它儲存著由組織作業(yè)數(shù)據(jù)庫 中整合 做真實的自己-用良心做教育 千鋒 大數(shù)據(jù) 視頻教程 而來的數(shù)據(jù), 特別是指事務(wù)處理系統(tǒng) OLTP (On-Line Transactional Processing) 所得來的數(shù)據(jù)。 將這些整合過的數(shù)據(jù)置放于數(shù)據(jù)昂哭中,而公司的決策者則利用 這些數(shù)據(jù)作決策;但是,這個轉(zhuǎn)換及整合數(shù)據(jù)的過程,是建立一個數(shù)據(jù)倉庫最大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論