Boosting算法及其在中醫(yī)亞健康數(shù)據(jù)分類中的應用_第1頁
Boosting算法及其在中醫(yī)亞健康數(shù)據(jù)分類中的應用_第2頁
Boosting算法及其在中醫(yī)亞健康數(shù)據(jù)分類中的應用_第3頁
全文預覽已結(jié)束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、    李霞中國人民大學統(tǒng)計學院,100872何麗云中國中醫(yī)科學院中醫(yī)臨床基礎醫(yī)學研究所臨床評價中心,100700劉超北京航空航天大學理學院數(shù)學系,100083統(tǒng)計學習是當前活躍在各個科研和應用領域中的一門學科,可以看作是新一代統(tǒng)計學的重要分支,它同時將模型的可解釋性和預測準確性考慮到對數(shù)據(jù)的建模當中,而其中的boosting方法由于其優(yōu)良的預測準確性在近幾年中最為引人注目,因此,本文考慮將其納入本研究當中,并同傳統(tǒng)的logistic回歸判別模型進行比較。亞健康狀態(tài)是現(xiàn)代社會的新概念,其發(fā)生受社會競爭加劇,工作壓力加大,心理負擔加重及不良情緒干擾等因素的

2、影響而日益增多,不僅影響人們的生活質(zhì)量,也與多種慢性非傳染性疾病的發(fā)生發(fā)展密切相關。但由于亞健康狀態(tài)概念宏觀模糊,與正常和疾病狀態(tài)難以明確界定,給臨床研究帶來困難。本研究應用boosting分類建模方法,對亞健康狀態(tài)的流行病學調(diào)查數(shù)據(jù)進行分析,建立了亞健康狀態(tài)判斷模型并對其臨床特征進行了研究,現(xiàn)報道如下。一、資料與方法(一)資料來源本組資料來源于2003年3月到10月對北京市不同行業(yè)的居民,發(fā)放亞健康狀態(tài)中醫(yī)基本證候流行病學調(diào)查問卷4000份,回收問卷3676份,合格問卷3624份。(二)研究標準(1)被調(diào)查者納入標準:符合本課題的亞健康專家診斷標準;年齡3555歲;愿接受調(diào)查者。(2)合格問

3、卷的判斷標準:一般信息中除地址和聯(lián)系方式外的項目必須填寫;再次排除有疾病診斷者;全部問題條目的缺失和漏填不超過5%。(3)問卷排除標準:不符合納入標準者;患有心腦血管、糖尿病、腫瘤等重大疾病者;患非重大疾病但需用藥維持者;不愿合作者。(三)研究目的與方法(1)研究目的亞健康分類模型的建立,即從初步分類的數(shù)據(jù)集中抽象出一個分類模型,該模型能夠很好地擬合當前分類結(jié)果并能解釋其意義,對未知的人群分類具有指導作用,具有預測意義,這是通用的目的之一。對亞健康臨床特征進行分析,即從亞健康的56個癥狀變量中篩選出重要的因素,為亞健康診斷研究打下基礎,這使得模型必須對實踐具有指導和解釋意義。(2)研究的方法基

4、于boosting算法的模型boosting算法是一種用來提高學習算法準確度的方法,這種方法通過構造一個預測函數(shù)系列,然后以一定的方式將它們組合成一個預測函數(shù),達到把一弱學習算法提升為強學習算法的目的。1989年Schapire提出了第一個可證明的多項式時間boosting算法,對這個問題作出了肯定的回答。一年后,F(xiàn)reund設計了一個高效得多的通過重取樣或過濾運作的boosting-by-majorty算法。這個算法盡管在某種意義上是優(yōu)化的,但卻有一些實踐上的缺陷。1995年Freund和Schapire介紹了通過調(diào)整權重而運作的Ada-Boost算法AdaBoost,AdaBoost1M1

5、,AdaBoost1M2,AdaBoost1R,解決了早期boosting算法很多實踐上的困難。boosting算法是一種基于其他機器學習算法之上的用來提高算法精度和性能的方法。當用于回歸或分類分析時,不需要構造一個擬合精度高、預測能力好的算法,只要一個效果只比隨機猜測略好的粗糙算法即可,稱之為基算法。通過不斷地調(diào)用這個基算法就可以獲得一個擬合和預測誤差都相當好的組合預測模型。boosting算法可以應用于任何的基礎算法,無論是線性回歸、決策樹、神經(jīng)網(wǎng)絡、還是SVM方法,都可以有效地提高精度。因此,boosting可以被視為一種通用的增強基礎算法性能的回歸分類分析算法。本文的模型訓練過程:首先

6、將全部樣本2613例按7:3的比例隨機分為訓練集(1830例)和測試集(783例),在訓練集上訓練模型,在測試集上對模型準確性進行測試。(3)研究輔助工具所有建模過程均通過在R中編程實現(xiàn)。二、過程及結(jié)果     (2)將上一步求得的導數(shù)看作是偽因變量,用基函數(shù)去擬合這個因變量,得到基函數(shù)的參數(shù),并同時得到相應的系數(shù):在該算法中,最終得到的實際上是多個基函數(shù)的線性組合,在此過程中除了需要考慮損失函數(shù)L(y,F(xiàn))以外,通常還要選定基函數(shù)h(x)空間,由于決策樹具有多種優(yōu)點,因此在本文中我們考慮使用決策樹作為基函數(shù)。同時,選擇決策樹作為基函數(shù)還可以得到預測變量

7、的重要性度量。我們可以先從單個決策樹入手,假設樹的葉節(jié)點有J個,Breiman等人(1984)提出了對于單個決策樹的變量重要性度量,當目標變量為區(qū)間型時,重要性度量為由節(jié)點到分裂后的節(jié)點間誤差平方和的減少,即:總之,在確定了損失函數(shù)、基函數(shù)、優(yōu)化搜索策略后,就可以使用boosting算法對一個分類問題進行建模。在以下的討論中損失函數(shù)我們主要集中在以上提到的兩個損失函數(shù),基函數(shù)采用決策樹(深度為3)、最優(yōu)迭代停止次數(shù)通過5折交叉驗證來設定。1.bernoulli分布的損失函數(shù)當響應變量的取值為二分類變量時,首先我們考慮使用bernoulli對數(shù)似然函數(shù)作為損失函數(shù),即: L(y,F(xiàn))=log(1

8、+exp(-yF)在建模過程中我們使用5折交叉驗證對最優(yōu)迭代次數(shù)進行選擇,結(jié)果表明當?shù)螖?shù)=3857時,5折交叉驗證的損失函數(shù)達到最小。迭代過程如圖2右側(cè)圖中所示,豎線的橫坐標即為最優(yōu)交叉驗證所在的迭代次數(shù),同時得到變量的相對重要性度量圖,如圖2左圖中所示。     圖2迭代過程及變量相對重要性變量相對重要性的具體數(shù)值見表1(僅列出前10位的變量):表1變量重要性列表 變量 相對重要性B02疲乏不易緩解 11.24615831C35睡眠差而感覺疲勞7.30508878B04頭腦昏沉6.72979097B24氣短5.29293047C48大便酸腐氣4.8

9、5004553B25胸悶4.44894938C44排便困難4.10301871E67工作效率下降3.17515420B01感覺疲勞3.08082261D62手腳打顫或身上忽冷忽熱3.04978211同時當我們將從訓練樣本得到的模型應用到測試數(shù)據(jù)集上時,有關模型判別的判斷矩陣如表2所示。表2使用基于貝努利分布損失函數(shù)的boosting模型判斷 原結(jié)論 模型判斷 亞健康正常 總數(shù)亞健康515 38 553正常 16214 230總數(shù)531252 783分類總正確率為;(515+214)/783=93.10%;誤分率為:(38+16)/783=6.90%。   

10、0; 圖3迭代過程及變量相對重要性2.指數(shù)分布的損失函數(shù) loss function=exp(-ygF)同樣在建模中我們使用5折交叉驗證對最優(yōu)迭代次數(shù)進行選擇,當?shù)螖?shù)=2390時,5折交叉驗證的損失函數(shù)達到最小。迭代過程如圖3右側(cè)所示,豎線所在的橫坐標即為最優(yōu)交叉驗證所在的迭代次數(shù)為2390,同時得到變量的相對重要性度量圖,見圖3。表3變量重要性列表(僅列出位居前10位的變量) 變量 相對重要性B02疲乏不易緩解10.65816952B04頭腦昏沉7.43205088C35睡眠差而感覺疲勞6.35083576B24氣短4.83533831C48大便酸腐氣4.79418747C44排便困難4

11、.45340256B25胸悶4.35412420B01感覺疲勞3.63297387D62手腳打顫或身上忽冷忽熱3.40385326E67工作效率下降3.22464787應用到測試數(shù)據(jù)集上時,有關模型判別的判斷結(jié)果矩陣見表4。表4使用基于指數(shù)損失函數(shù)的boosting模型判斷 原結(jié)論 模型判斷 亞健康正常總數(shù)亞健康517 36 553正常 18212 230總數(shù)535248 783分類總正確率為;(517+212)/783=93.10%;誤分率為:(36+18)/783=71/783=6.90%。我們發(fā)現(xiàn)本測試集在采用不同的損失函數(shù)時,總正確率和誤分率是相等的,稍有不同之處在表2和表3的判斷矩陣

12、表格中對應于原先是亞健康狀態(tài)而判斷出亞健康狀態(tài)的人群以及原先是正常狀態(tài)的人群而判斷出是正常狀態(tài)的人群計數(shù)稍有差異。比較文獻中使用logistic回歸得到的正確率而言,本文所討論的模型判斷準確率有近3個百分點的提高,而且誤分類率也有較大改進。三、討論1.亞健康的研究難點在于人群分類:亞健康是描述人體沒有西醫(yī)疾病診斷,但是卻有多種“不適”臨床表現(xiàn)和各種能力顯著減退的總體狀態(tài),本研究的方法是首先排除疾病人群,再將剩余的健康和亞健康兩部分人群通過模型進行分離和分析,本文的分類模型便是針對這兩個人群的流行病學調(diào)查數(shù)據(jù)進行的。2.本模型的優(yōu)點:對于健康和亞健康人群分類的模型,曾經(jīng)有多種方法,有的已經(jīng)發(fā)表,但統(tǒng)計學習方法是近幾年中逐漸在統(tǒng)計學領域中興起的一個分支,對以高預測性能和模型解釋為目的的建模問題有著比傳統(tǒng)統(tǒng)計分析方法更優(yōu)良的特性。在本文中我們通過分別對兩種不同的損失函數(shù)下使用boosting算法進行建模,在測試集上都可以得到比文獻中的方法更高的預測準確性,同時也得到了與亞健康狀態(tài)相關的重要指標排序,從而得到亞健康狀態(tài)主要的臨床特征表現(xiàn)。3.亞健康人群分類模型建立意義:目前醫(yī)學界和社會學界對亞健康研究的重視程度很高,但是具體的研究方法較少,本模型對于進一步研究亞健康臨床特征,診斷亞健康,從而建立恰當?shù)念A防和治療方法有很大應用價值。本文所構建的兩個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論