基于實(shí)證分析的數(shù)據(jù)挖掘在家庭經(jīng)濟(jì)困難學(xué)生精準(zhǔn)識別過程中的應(yīng)用探索_第1頁
基于實(shí)證分析的數(shù)據(jù)挖掘在家庭經(jīng)濟(jì)困難學(xué)生精準(zhǔn)識別過程中的應(yīng)用探索_第2頁
基于實(shí)證分析的數(shù)據(jù)挖掘在家庭經(jīng)濟(jì)困難學(xué)生精準(zhǔn)識別過程中的應(yīng)用探索_第3頁
基于實(shí)證分析的數(shù)據(jù)挖掘在家庭經(jīng)濟(jì)困難學(xué)生精準(zhǔn)識別過程中的應(yīng)用探索_第4頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、    基于實(shí)證分析的數(shù)據(jù)挖掘在家庭經(jīng)濟(jì)困難學(xué)生精準(zhǔn)識別過程中的應(yīng)用探索    李書翔張沂紅摘 要:通過建立基于家庭經(jīng)濟(jì)困難學(xué)生數(shù)據(jù)庫的數(shù)據(jù)挖掘模型對困難生精準(zhǔn)識別進(jìn)行實(shí)證角度的探索,通過數(shù)據(jù)預(yù)處理后的數(shù)據(jù)選取決策樹模型進(jìn)行學(xué)生識別,評估模型顯示,該數(shù)據(jù)挖掘模型預(yù)測具有較高的準(zhǔn)確率,能夠從一定程度上解決家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定過程中存在的主觀性、片面性等問題。關(guān)鍵詞:數(shù)據(jù)挖掘模型;家庭經(jīng)濟(jì)困難學(xué)生;精準(zhǔn)識別;決策樹數(shù)據(jù)挖掘(data mining,dm)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(knowledge discover in database,kdd),是指從數(shù)據(jù)

2、庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的過程1。數(shù)據(jù)挖掘在很多領(lǐng)域都是一個很時(shí)髦的詞,尤其是在如銀行、電信、保險(xiǎn)、交通、零售等商業(yè)領(lǐng)域。但是,數(shù)據(jù)挖掘在教育領(lǐng)域的應(yīng)用尚處于理論探索階段,其他研究中已經(jīng)證明,數(shù)據(jù)挖掘在高校家庭經(jīng)濟(jì)困難學(xué)生精準(zhǔn)識別的過程中具有理論上的可行性,本文通過建立基于家庭經(jīng)濟(jì)困難學(xué)生數(shù)據(jù)庫的數(shù)據(jù)挖掘模型對困難生精準(zhǔn)識別進(jìn)行實(shí)證角度的探索,以期能夠解決家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定過程中存在的主觀性、片面性等問題。本研究通過運(yùn)用數(shù)據(jù)挖掘技術(shù),對家庭經(jīng)濟(jì)困難學(xué)生的數(shù)據(jù)進(jìn)行量化分析、建模評價(jià)、以及結(jié)果分析。本文的主要設(shè)計(jì)思路為:針對學(xué)生的一系列評價(jià)家庭經(jīng)濟(jì)困難程度的指標(biāo)劃

3、分學(xué)生困難等級,有利于簡化家庭經(jīng)濟(jì)困難學(xué)生的認(rèn)定程序,降低錯誤率。一個完整的數(shù)據(jù)挖掘過程主要包括數(shù)據(jù)準(zhǔn)備、建立模型進(jìn)行挖掘、模型的評價(jià)與修正三個階段。借助數(shù)據(jù)庫中已有學(xué)生信息,使用數(shù)據(jù)挖掘方法開發(fā)出困難等級評分模型從已有數(shù)據(jù)中分析歸納出困難生識別的規(guī)則和標(biāo)準(zhǔn)。然后,將這些規(guī)則或標(biāo)準(zhǔn)應(yīng)用于困難生認(rèn)定過程。本文所采用的數(shù)據(jù)挖掘軟件為spss clementine 12.0。該軟件操作簡單、無需編程、界面人性化,是一款十分適用的數(shù)據(jù)挖掘軟件。圖1展示了基于數(shù)據(jù)挖掘的困難生精準(zhǔn)識別所構(gòu)建的模型。一、數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理主要包括原始數(shù)據(jù)整理與數(shù)據(jù)分割兩部分。本研究采用原始數(shù)據(jù)來自2015年度某高校某學(xué)院

4、家庭經(jīng)濟(jì)困難學(xué)生數(shù)據(jù)庫,該數(shù)據(jù)庫共有數(shù)據(jù)496條。從學(xué)生家庭情況調(diào)查表以及家庭經(jīng)濟(jì)困難申請表中原因陳述結(jié)果可以看到,涉及到學(xué)生的特征指標(biāo)包括戶籍性質(zhì)(hj)(農(nóng)村、城鎮(zhèn)),戶口所在地(hk)(東部、西部、中部),家庭人口數(shù)(rk),是否孤殘(gc),是否單親(dq),家庭人均年收入(sr),家庭健康情況(jk),家庭負(fù)債情況(fj)等一系列指標(biāo)。數(shù)據(jù)經(jīng)整理后能夠滿足clementine對數(shù)據(jù)挖掘的要求。數(shù)據(jù)分割的目的主要是為了驗(yàn)證數(shù)據(jù)挖掘模型,根據(jù)一般原則,數(shù)據(jù)分割的比例配比為訓(xùn)練集(40%),測試集(30%),驗(yàn)證集(30%)。分割方法為簡單隨機(jī)抽樣,利用clementine 12.0的pa

5、rtition節(jié)點(diǎn)完成。分割后的三個數(shù)據(jù)集用新增變量partition的取值標(biāo)識,但仍合并在同一個數(shù)據(jù)文件里。二、建立模型家庭經(jīng)濟(jì)困難的等級與困難學(xué)生本身的特性是緊密相關(guān)的,經(jīng)由這些特性能夠細(xì)分學(xué)生困難等級,常用的特征識別方法是分類樹。分類樹著眼于從一組無次序、無規(guī)則的事例中推理出分類樹表示的分類規(guī)則。現(xiàn)在比較常見的算法是基于信息論的方法的決策樹。本文選取決策樹模型來分析處于不同困難等級的學(xué)生所共有的一些個人信息,并對困難生認(rèn)定提出相應(yīng)的一些建議。符合以下幾條規(guī)則之一的,可以認(rèn)定為家庭經(jīng)濟(jì)條件特殊困難:(1)人均年收入少于2250元,家庭人口少于3.5;(2)家庭人口多于3.5,人均年收入少于

6、950元;(3)人均年收入高于2250元,家中有負(fù)債,人口數(shù)少于5人,家庭存在不健康因素。符合以下幾條規(guī)則之一的,可以認(rèn)定為家庭經(jīng)濟(jì)條件困難:(1)人均年收入大于1250元,家中有負(fù)債,農(nóng)村戶口;(2)人均年收入大于1250元,戶籍所在地為中西部地區(qū);(3)人均年收入大于1250,家中人口多于5人,且有負(fù)債;(4)收入多于2250,人口數(shù)多于6人且家中不健康因素的。符合以下幾條規(guī)則之一的,可以認(rèn)定為家庭經(jīng)濟(jì)條件一般困難:(1)收入多于1250,家住農(nóng)村,無負(fù)債;(2)收入在2250到2450之間,家住中東部,人口少于6人;(3)收入大于2450元。三、模型評估完成模型的制定以后,下一步就是對模

7、型進(jìn)行評估,檢驗(yàn)其預(yù)測能力的強(qiáng)弱。一般來說,模型的檢驗(yàn)有兩種方式:樣本內(nèi)檢驗(yàn)和樣本外檢驗(yàn)。在clementine中,模型評估主要采用圖形展示,例如gain圖、lift圖等。另外,也常用分類矩陣來比較預(yù)測結(jié)果與實(shí)際結(jié)果的吻合程度,分析結(jié)果如圖2。首先,從收益圖可以明顯的看出,利用決策樹得到預(yù)測模型準(zhǔn)確率非常高,幾乎與理想模型重合,而基于客戶特征的細(xì)分變量的準(zhǔn)確率也比較高。為了更好的評判預(yù)測效果,利用clementine 12.0中的analysis節(jié)點(diǎn),可以得到如下關(guān)于決策樹模型在三個部分的數(shù)據(jù)集中的預(yù)測準(zhǔn)確率。在大小為40%的訓(xùn)練數(shù)據(jù)集中,模型的預(yù)測準(zhǔn)確率達(dá)到86.03%;在大小為30%的檢驗(yàn)

8、數(shù)據(jù)集中預(yù)測準(zhǔn)確率為86.1%;在大小為30%的驗(yàn)證數(shù)據(jù)集中,其預(yù)測準(zhǔn)確率達(dá)到86.18%??梢?,利用決策樹模型已經(jīng)達(dá)到了相當(dāng)好的估計(jì)效果。四、結(jié)論數(shù)據(jù)挖掘模型的運(yùn)行結(jié)果在理論與實(shí)踐層面都得出了有益的結(jié)論。首先,數(shù)據(jù)挖掘的運(yùn)行結(jié)果給出了困難生認(rèn)定的一些普遍規(guī)則,這些規(guī)則基于困難生認(rèn)定的原始數(shù)據(jù)所表現(xiàn)出來的困難生的特性,反映學(xué)生的方方面面。這些規(guī)則在困難生認(rèn)定過程中將會是非常好的參考條件,甚至對困難生認(rèn)定的準(zhǔn)確度起決定作用。其次,數(shù)據(jù)挖掘應(yīng)用于家庭經(jīng)濟(jì)困難學(xué)生精準(zhǔn)識別,對于數(shù)據(jù)挖掘在教育領(lǐng)域尤其是在學(xué)生管理與服務(wù)工作中的應(yīng)用提供了有益的借鑒,這種借鑒也不應(yīng)止步于此,應(yīng)當(dāng)進(jìn)行更加深入的研究與應(yīng)用,一遍提高高等學(xué)校學(xué)生工作的科學(xué)化水平。(作者單位:1.濟(jì)南大學(xué)外國語學(xué)院;2.濟(jì)南大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論