《金融大數(shù)據(jù)分析》-課件 第3章 線性回歸_第1頁
《金融大數(shù)據(jù)分析》-課件 第3章 線性回歸_第2頁
《金融大數(shù)據(jù)分析》-課件 第3章 線性回歸_第3頁
《金融大數(shù)據(jù)分析》-課件 第3章 線性回歸_第4頁
《金融大數(shù)據(jù)分析》-課件 第3章 線性回歸_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

金融大數(shù)據(jù)學習第三章:線性回歸吳軻中國人民大學20243.1 學習目標理解線性回歸的應(yīng)用范疇熟悉線性回歸的函數(shù)形式,以及模型中參數(shù)理解機器學習常用訓練的方法:梯度下降,并了解對該方法在線性回歸模型中的具體使用方法的意義掌握如何使用Python訓練線性回歸模型3.2 案例:預測公司盈利在金融市場中,公司盈利是對公司表現(xiàn)最重要的衡量指標之一。每次公司季報或年報之前,金融分析師經(jīng)常需要對他們關(guān)注的公司作出盈利預測。如果公司表現(xiàn)達不到市場預期,其股票回報往往會出現(xiàn)顯著下跌。在傳統(tǒng)金融機構(gòu)中,分析師為了做出相對準確的預測往往需要進行大量的調(diào)研。近期的研究發(fā)現(xiàn),通過機器學習的方法,我們同樣可以得到非常好的公司盈利預測效果。在本章中,我們的目標是通過機器學習方法來構(gòu)建一個預測公司每股收益的預測系統(tǒng)。案例數(shù)據(jù)及分析每股收益預測數(shù)據(jù)股票代碼日期股價凈市率資產(chǎn)收益率每股收益6018882016-0644.180.2480.0471.1330006512005-0910.540.4700.0120.5006000312010-0627.090.2960.0661.1900001572012-0610.850.4010.0300.7750020012014-0612.780.4430.0230.500案例數(shù)據(jù)及分析

3.3 線性回歸方法

值得注意的是,本例中,目標變量是一個連續(xù)變量。因為理論上來說,該變量可以是任何實數(shù)。因此,我們的模型需要能夠輸出同樣的連續(xù)變量。對于這一類問題,一個簡單而有效的方法是線性回歸。接下來,我們將討論:什么是線性回歸(一元以及多元線性回歸)如何估計線性回歸模型中的參數(shù)線性回歸參數(shù)的意義在程序中如何執(zhí)行線性回歸一元線性回歸

一元線性回歸

模型訓練

模型訓練

代價函數(shù)

代價函數(shù)

梯度下降

梯度下降

梯度下降

梯度下降

多元線性回歸

多元線性回歸

多元線性回歸梯度下降

多元回歸注意事項

統(tǒng)計顯著性檢驗

統(tǒng)計顯著性檢驗

3.4拓展:線性方法的其他應(yīng)用

本章中,我們主要以預測每股收益作為例子來探討如何使用線性回歸。我們以使用線性回歸的例子來說明線性回歸的廣泛用途。為了得到超額投資收益,投資者需要預測未來股票的漲跌。成功的投資者往往可以及時購入未來收益較高的股票并置換出未來收益較低的股票。

我們是否有可能通過搜集到的信息獲得超額收益?哪些信息可以幫助更好的預測未來股票回報呢?該問題涵蓋本章中討論的兩個重要概念:預測與推斷。我們需要知道我們能否使用線性模型來很好的預測未來的股票回報率,并且推斷哪些信息對于預測有著較為重要的作用。用線性回歸進行回報率預測

用線性回歸進行回報率預測

3.5編寫線性回歸程序

用statsmodel模塊進行回歸分析1.導入庫

使用pandas存儲數(shù)據(jù)。

導入statsmodels的api模塊用于線性回歸分析(statsmodels是一個用于統(tǒng)計建模和計量經(jīng)濟學的Python庫)。

導入statsmodels.tools.eval_measures中的mse函數(shù),用于計算均方誤差。import

pandas

as

pd

import

statsmodels.api

as

sm

from

statsmodels.tools.eval_measures

import

mse

用statsmodel模塊進行回歸分析2.數(shù)據(jù)讀取及處理

讀取名為’ols_training.csv’的CSV文件中的數(shù)據(jù),并將其存儲在df變量中。

定義一個特征列表,定義三個特征名稱’pps’,‘bm’,‘roa’。

使用statsmodels的add_constant方法將df中的特征列(不包括常數(shù)列)添加常數(shù)列,并返回一個包含常數(shù)列的新DataFrame。df=pd.read_csv('ols_training.csv')

features=['pps','bm','roa']

X=sm.add_constant(df[features])

用statsmodel模塊進行回歸分析3.進行回歸分析

創(chuàng)建一個OLS模型對象,使用sm.OLS函數(shù),其中因變量為df中的‘eps_basic’列,自變量為X。

使用fit方法對模型進行擬合,并將結(jié)果存儲在result中。

打印result的摘要信息,包括各個參數(shù)的值和統(tǒng)計量等。model

=

sm.OLS(df['eps_basic'],

X)

result

=

model.fit()

print(result.summary())

用statsmodel模塊進行回歸分析 5.模型擬合:下面來檢測我們訓練的模型與數(shù)據(jù)的擬合程度。首先,使用predict方法預測X對應(yīng)的因變量值,并賦值給ypred變量。將預測的結(jié)果添加到df中的”eps_basic_pred”列打印df的前五行,以查看添加的預測列。

使用mse函數(shù)計算實際因變量和預測因變量之間的均方誤差并顯示。得到MSE:0.33674576635864206。ypred

=

result.predict(X)

df["eps_basic_pred"]

=

ypred

print(df.head())

mse_ols

=

mse(df['eps_basic'],

ypred)

print("MSE:",mse_ols)

用sklearn模塊進行回歸分析1.導入庫:

使用pandas儲存數(shù)據(jù)

導入statsmodels的api模塊用于線性回歸分析

導入sklearn庫的sm,是另一個線性回歸的庫

導入sklearn庫的標準化模塊,用于對數(shù)據(jù)進行標準化處理用sklearn模塊進行回歸分析2.數(shù)據(jù)讀入及處理

讀取名為’ols_training.csv’的CSV文件中的數(shù)據(jù),將其存儲在df變量中。

定義一個特征列表,包含三個特征名稱’pps’,‘bm’,‘roa’。

創(chuàng)建一個Standard-Scaler對象,用于對數(shù)據(jù)進行標準化處理。

對df中的特征數(shù)據(jù)進行標準化處理(處理后的特征平均值為0,標準差為1)。將標準化處理后的數(shù)據(jù)x轉(zhuǎn)化為DataFrame格式,并將結(jié)果存儲在x中,同時定義列名為特征列表features。使用sklearn中的模塊必須首先進行這一預處理步驟。用sklearn模塊進行回歸分析df

=

pd.read_csv('ols_training.csv')

features

=

['pps','bm','roa']

scalar

=

StandardScaler()

scalar.fit(df[features])

x=scalar.transform(df[features])

x=pd.DataFrame(x,columns

=

features)

用sklearn模塊進行回歸分析

OLS

=

linear_model.LinearRegression()

est1

=

OLS.fit(X=x,y=df['eps_basic'])

print(ercept_)

print(est1.coef_)用sklearn模塊進行回歸分析4.用statsmodel進行比較

添加截距項(statsmodel不會自動添加截距項)。

創(chuàng)建OLS模型對象,使用sm.OLS函數(shù),其中因變量為df中的‘eps_basic’列,自變量為X_const。并使用fit方法對模型進行擬合,并將結(jié)果存儲在result中。打印出result的摘要信息X_const

=

sm.add_constant(x)

model

=

sm.OLS(df['eps_basic'],

X_const)

result

=

model.fit()

print(result.summary())

我們發(fā)現(xiàn)兩種方法系數(shù)相同。因為對特征進行過縮放,因此我們得到的系數(shù)與未經(jīng)過特征縮放的程序結(jié)果有所不同。經(jīng)過縮放后,系數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論