《金融大數(shù)據(jù)分析》-課件 第14章 缺失數(shù)據(jù)_第1頁
《金融大數(shù)據(jù)分析》-課件 第14章 缺失數(shù)據(jù)_第2頁
《金融大數(shù)據(jù)分析》-課件 第14章 缺失數(shù)據(jù)_第3頁
《金融大數(shù)據(jù)分析》-課件 第14章 缺失數(shù)據(jù)_第4頁
《金融大數(shù)據(jù)分析》-課件 第14章 缺失數(shù)據(jù)_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第14章缺失數(shù)據(jù)本章的學(xué)習(xí)目標(biāo)為:理解造成數(shù)據(jù)缺失的幾種普遍原因熟悉填充缺失數(shù)據(jù)的基本方法,以及這些方法的優(yōu)缺點(diǎn)掌握使用程序?qū)θ笔?shù)據(jù)進(jìn)行填充案例:缺失數(shù)據(jù)我們?cè)谒鸭瘮?shù)據(jù)的過程中經(jīng)常會(huì)遇到缺失數(shù)據(jù)的問題。如表14.1所示,數(shù)據(jù)3的一個(gè)特征數(shù)據(jù)是缺失的。造成的原因可能是數(shù)據(jù)搜集過程中沒有要求用戶填寫該數(shù)據(jù),也可能是因?qū)?shù)據(jù)管理的疏忽而造成一些數(shù)據(jù)丟失。表14.1缺失數(shù)據(jù)案例:缺失數(shù)據(jù)在本章中,我們將對(duì)缺失數(shù)據(jù)的問題進(jìn)行分析,并介紹一些常用的缺失數(shù)據(jù)處理方法。這些方法中會(huì)用到我們之前介紹過的機(jī)器學(xué)習(xí)方法,因此我們也可以將這個(gè)章節(jié)當(dāng)作對(duì)之前的機(jī)器學(xué)習(xí)方法學(xué)習(xí)的一種回顧。以財(cái)報(bào)數(shù)據(jù)為例,有的數(shù)據(jù)不一定是監(jiān)管要求披露的信息。因此有的公司會(huì)對(duì)其進(jìn)行披露,而另外一些公司選擇不提供這些數(shù)據(jù)。另外,數(shù)據(jù)提供商在搜集整理這些數(shù)據(jù)的過程中,也可能因?yàn)椴僮魇д`而丟失一些數(shù)據(jù)缺失原因??通常數(shù)據(jù)缺失是由三類原因?qū)е碌摹?完全隨機(jī)缺失:?全隨機(jī)數(shù)據(jù)缺失指的是數(shù)據(jù)缺失的概率與其他因素?zé)o關(guān)。例如,由于數(shù)據(jù)提供商的疏忽,可能沒能搜集到一些公司披露過的數(shù)據(jù)。這些數(shù)據(jù)與公司的基本面,公司的規(guī)模以及公司披露的習(xí)慣無關(guān)。?非隨機(jī)缺失:非隨機(jī)缺失則是我們?cè)谌笔?shù)據(jù)的概率與數(shù)據(jù)集之外的其他變量也有關(guān)系?缺失原因?隨機(jī)缺失:隨機(jī)數(shù)據(jù)缺失問題指的是數(shù)據(jù)缺失的概率與我們分析的其他特征有關(guān),但是在考慮我們數(shù)據(jù)的其他特征之外,數(shù)據(jù)缺失的幾率與其他變量沒有關(guān)系。例如,大型公司披露數(shù)據(jù)工作可能更為仔細(xì),因此缺失的數(shù)據(jù)的可能性較小。但除此之外,數(shù)據(jù)缺失與其他變量沒有關(guān)系。這種數(shù)據(jù)缺失顯然不是完全隨機(jī)的。如果公司的規(guī)模是我們模型中的一個(gè)變量,那么我們將這種數(shù)據(jù)缺失稱為隨機(jī)缺失。?值得注意的是我們很難區(qū)分隨機(jī)缺失與非隨機(jī)缺失。而我們接下來介紹的大部分方法需要假設(shè)數(shù)據(jù)是完全隨機(jī)缺失或隨機(jī)缺失。缺失數(shù)據(jù):簡單處理方法刪除數(shù)據(jù)最簡單的處理方法是直接將具有缺失特征的數(shù)據(jù)進(jìn)行刪除。這種方法操作簡單,但是當(dāng)有大量數(shù)據(jù)都有缺失時(shí),可能會(huì)造成大量數(shù)據(jù)點(diǎn)從數(shù)據(jù)中遭到刪除。這種情況下,我們可以考慮將數(shù)據(jù)缺失較多的特征從模型中移除。

缺失數(shù)據(jù):簡單處理方法簡單數(shù)據(jù)填充刪除數(shù)據(jù)會(huì)造成信息的丟失。因此在許多應(yīng)用中,我們使用數(shù)據(jù)填充來對(duì)缺失數(shù)據(jù)進(jìn)行處理。例如,對(duì)于連續(xù)變量,我們可以使用未缺失的數(shù)據(jù)計(jì)算變量的平均值或者中位數(shù)。并用這些值對(duì)缺失的數(shù)據(jù)進(jìn)行填充。這些數(shù)據(jù)填充方法我們?cè)谥罢鹿?jié)的程序中已經(jīng)進(jìn)行了應(yīng)用。

缺失數(shù)據(jù):簡單處理方法簡單數(shù)據(jù)填充——分類數(shù)據(jù)如果缺失的數(shù)據(jù)是分類數(shù)據(jù)。那么,我們可以考慮用頻率最高的分類用于填充缺失數(shù)據(jù)。例如,如果我們將貸款申請(qǐng)人的房產(chǎn)數(shù)量當(dāng)成一個(gè)分類數(shù)據(jù),那么0套住房的申請(qǐng)者應(yīng)該會(huì)比擁有房產(chǎn)的人更多,因此我們可以考慮將缺失的數(shù)據(jù)設(shè)置為0。

缺失數(shù)據(jù):簡單處理方法簡單數(shù)據(jù)填充——時(shí)間序列數(shù)據(jù)如果我們數(shù)據(jù)中有時(shí)間序列,那么我們可以考慮用前一期的非缺失數(shù)據(jù)對(duì)當(dāng)期的數(shù)據(jù)進(jìn)行填充。例如,如果某公司市凈率數(shù)據(jù)(bm)在2020年缺失,那么我們可以考慮用2019年的數(shù)據(jù)對(duì)其進(jìn)行填充。這種填充方法通常只有在該變量相對(duì)穩(wěn)定的情況下才能使用。變化較大的數(shù)據(jù)(例如月度股票回報(bào))則不能用這個(gè)方法進(jìn)行處理。

缺失數(shù)據(jù):進(jìn)階填充方法進(jìn)階填充方法雖然將數(shù)據(jù)用平均值或中位數(shù)進(jìn)行填充的操作簡單有效,并且應(yīng)用廣泛,但這些方法也有一些問題。例如這些方法會(huì)造成過多的數(shù)據(jù)出現(xiàn)在平均數(shù)或中位數(shù)上。另外,我們沒有充分運(yùn)用到數(shù)據(jù)中的一些相關(guān)性信息。接下來我們介紹的數(shù)據(jù)填充方法主要思路是利用數(shù)據(jù)之間的相關(guān)性來對(duì)缺失數(shù)據(jù)進(jìn)行填充。例如,如果我們數(shù)據(jù)中有兩個(gè)相關(guān)度較高的變量(比如市凈率,?市盈率)。

缺失數(shù)據(jù):進(jìn)階填充方法進(jìn)階填充方法?某公司的市凈率數(shù)據(jù)可能有缺失,但是我們可以通過該公司未缺失的市盈率數(shù)據(jù)對(duì)缺失的市凈率數(shù)據(jù)進(jìn)行預(yù)測。并用模型的預(yù)測值來填充缺失的數(shù)據(jù)。?這一類方法的好處是我們填充的缺失數(shù)據(jù)相較于平均值/中位數(shù)應(yīng)該更接近于缺失數(shù)據(jù)原本的數(shù)值。因此,這些填充方法所取得的數(shù)據(jù)應(yīng)該能幫助我們的模型取得更好的預(yù)測效果。進(jìn)階填充方法:多重插補(bǔ)鏈?zhǔn)椒匠?/p>

多重插補(bǔ)鏈?zhǔn)椒匠?第一種常用方法是多重插補(bǔ)鏈?zhǔn)椒匠蹋∕ICE)。這種方法如下:?

進(jìn)階填充方法:多重插補(bǔ)鏈?zhǔn)椒匠?/p>

多重插補(bǔ)鏈?zhǔn)椒匠?用表14.1中的數(shù)據(jù)為例。我們做以下數(shù)據(jù)填補(bǔ)。表14.2很好的說明了數(shù)據(jù)填補(bǔ)的步驟。第一步(如上表所示)先用每列的平均值來填補(bǔ)缺失的數(shù)據(jù)(每股股價(jià)的平均值為18.934,市凈率平均值為0.531)。

進(jìn)階填充方法:多重插補(bǔ)鏈?zhǔn)椒匠?/p>

多重插補(bǔ)鏈?zhǔn)椒匠?下表為MICE數(shù)據(jù)填補(bǔ)??=1的情況,我們通過每股股價(jià)與其他兩個(gè)變量之間的關(guān)系,將每股價(jià)格修正為23.275(通過回歸分析,我們發(fā)現(xiàn)股價(jià)=16.164?1.138×市凈率+201.89×資產(chǎn)回報(bào)率)。進(jìn)階填充方法:多重插補(bǔ)鏈?zhǔn)椒匠?/p>

多重插補(bǔ)鏈?zhǔn)椒匠掏瑫r(shí)我們將市凈率進(jìn)行同樣的調(diào)整,得到0.523的數(shù)值。如果我們?cè)O(shè)置更高的??值,那么我們將重復(fù)以上步驟來對(duì)缺失的數(shù)據(jù)值進(jìn)行更新。我們將MICE填充方法與平均值填充法進(jìn)行比較??梢园l(fā)現(xiàn)MICE跟原始數(shù)據(jù)更為接近。3因此,可以得知我們可以通過MICE方法得到更好的數(shù)據(jù)填充效果。?

進(jìn)階填充方法:?矩陣補(bǔ)完法

矩陣補(bǔ)完法另一種廣泛使用的方法是使用主成分分析法(PCA),在計(jì)算主成分的時(shí)候我們同時(shí)能對(duì)缺失數(shù)據(jù)值進(jìn)行推算:?

進(jìn)階填充方法:?矩陣補(bǔ)完法

?

?重復(fù)以下步驟,直至目標(biāo)函數(shù)停止下降:?用??個(gè)主成分的線性組合更新??中缺失的數(shù)據(jù):?計(jì)算目標(biāo)函數(shù):輸出???

進(jìn)階填充方法:?K近鄰法和其他方法

K近鄰法我們也可以用??????方法來對(duì)數(shù)據(jù)進(jìn)行填補(bǔ)。簡單來說,對(duì)于一個(gè)數(shù)據(jù)點(diǎn),我們通過其未缺失的變量來找到離該變量接近的其他數(shù)據(jù)點(diǎn),并用這些數(shù)據(jù)點(diǎn)中為缺失的數(shù)據(jù)的平均值對(duì)該數(shù)據(jù)點(diǎn)的缺失數(shù)據(jù)進(jìn)行填補(bǔ)。?進(jìn)階填充方法:?K近鄰法和其他方法

其他方法?有些機(jī)器學(xué)習(xí)算法可以自動(dòng)處理含有缺失值的數(shù)據(jù)。例如我們之前提到的一種提升算法xgboost。使用該算法之前不需要對(duì)缺失數(shù)據(jù)進(jìn)行預(yù)處理。xgboost算法自動(dòng)將缺失的數(shù)據(jù)當(dāng)成特征中一個(gè)特殊的值來進(jìn)行運(yùn)用。如果算法無法自動(dòng)處理缺失數(shù)據(jù),而數(shù)據(jù)填充也不合適,那么我們可以考慮對(duì)數(shù)據(jù)進(jìn)行如下操作。首先,將缺失數(shù)據(jù)進(jìn)行填充(例如將其設(shè)置為0)。然后,再生成一個(gè)變量,當(dāng)發(fā)生數(shù)據(jù)缺失時(shí)該變量取值為1,否則為0。缺失數(shù)據(jù):程序代碼導(dǎo)入庫使用pandas存儲(chǔ)數(shù)據(jù)導(dǎo)入sklearn庫中的SimpleImputer,用于簡單的均值插補(bǔ),通過平均值、中位數(shù)或眾數(shù)等統(tǒng)計(jì)指標(biāo)來填充數(shù)據(jù)集中的缺失值?導(dǎo)入sklearn庫中的experimental模塊的enable_iterative_imputer,用于啟用迭代插值功能缺失數(shù)據(jù):程序代碼導(dǎo)入庫導(dǎo)入sklearn庫中的IterativeImputer,用于迭代插補(bǔ)導(dǎo)入sklearn.metrics庫中的mean_squared_error函數(shù),用于計(jì)算均方誤差缺失數(shù)據(jù):程序代碼數(shù)據(jù)讀取及處理讀取名為’missing_values.csv’的CSV文件中的數(shù)據(jù),并將其存儲(chǔ)在df變量中打印df數(shù)據(jù)集的前五行,用于查看數(shù)據(jù)格式和內(nèi)容缺失數(shù)據(jù):程序代碼?用平均值來填補(bǔ)缺失數(shù)據(jù)創(chuàng)建一個(gè)SimpleImputer對(duì)象,采用mean策略,即使用每一列的平均值來填充該列的缺失值?使用fit_transform方法對(duì)數(shù)據(jù)進(jìn)行填充處理,并將結(jié)果存儲(chǔ)在bm_mean_imputed中缺失數(shù)據(jù):程序代碼?用MICE進(jìn)行缺失數(shù)據(jù)填補(bǔ)?創(chuàng)建一個(gè)IterativeImputer對(duì)象,用于使用多重插補(bǔ)方法填充缺失值?使用fit_transform方法對(duì)數(shù)據(jù)進(jìn)行填充處理,并將結(jié)果存儲(chǔ)在bm_mice_imputed中缺失數(shù)據(jù):程序代碼?繪制兩種缺失數(shù)據(jù)填補(bǔ)方法得到數(shù)據(jù)的分布創(chuàng)建畫布,分別繪畫兩張子圖,代碼如下:缺失數(shù)據(jù):程序代碼?繪制兩種缺失數(shù)據(jù)填補(bǔ)方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論