探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在網(wǎng)站評(píng)價(jià)中的應(yīng)用_第1頁
探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在網(wǎng)站評(píng)價(jià)中的應(yīng)用_第2頁
探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在網(wǎng)站評(píng)價(jià)中的應(yīng)用_第3頁
探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在網(wǎng)站評(píng)價(jià)中的應(yīng)用_第4頁
探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在網(wǎng)站評(píng)價(jià)中的應(yīng)用_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在網(wǎng)站評(píng)價(jià)中的應(yīng)用 探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在X站評(píng)價(jià)中的應(yīng)用 導(dǎo)讀: 應(yīng)用數(shù)理統(tǒng)計(jì)課程小論文多元線性回歸在X站評(píng)價(jià)中的應(yīng)用摘要:在信息海洋中,發(fā)現(xiàn)并查找出有重要利用價(jià)值的信息并不是一件十分容易的事情。 因此對(duì)X絡(luò)信息資源進(jìn)行切實(shí)有效的信息檢索,并且對(duì)其做出實(shí)事求 是和恰如其分的評(píng)價(jià)是X絡(luò)信息資源管理所面臨的挑戰(zhàn)之一。本文以 sohu X站 為例,首先根據(jù)調(diào)查數(shù)據(jù)建立統(tǒng)計(jì)模型,然后進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行分析求解,最后 得出X站的總評(píng)分。 根據(jù)這一方法可以得出X站之間的排名,讓用戶清晰地看到 X站的使用率。關(guān)鍵字:信息檢索,sohu,統(tǒng)計(jì)模型,分析求解一、 問題的引入

2、在許多實(shí)際問題中,還會(huì)遇到一個(gè)隨機(jī)變量 y 與多個(gè)普通變量 x1,x2, xp (p>=2)的相關(guān)關(guān)系問題。在做回歸分析時(shí),人們根據(jù)問題本身的專業(yè)理論及有 關(guān)經(jīng)驗(yàn),常常需要把各種與因變量有關(guān)或可能有關(guān)的自變量考慮并引進(jìn)回歸模 型。例如,一種農(nóng)作物的畝產(chǎn)量可能與播種量、施肥量、澆水量、管理工時(shí)數(shù)等 有關(guān); 一個(gè)X站的好壞主要由X站的總體得分決定的,而X站的總體得分可能與 內(nèi)容涉及主題深度和廣度得分、準(zhǔn)確性得分、客觀性得分等因素有關(guān)。這種情況 下,僅僅考慮單個(gè)變量作自變量是不夠的,它不能對(duì)因變量以恰當(dāng)?shù)拿枋觯渌?多個(gè)關(guān)鍵自變量也以不通的方式影響著因變量。 如果根據(jù)只含有一個(gè)自變量的

3、回 歸模型來對(duì)因變量進(jìn)行預(yù)測(cè)的話,就會(huì)發(fā)現(xiàn)所做預(yù)測(cè)粗糙得簡(jiǎn)直毫無用處,采用 包含其他自變量的更復(fù)雜的模型則可以提供足夠精確地因變量的預(yù)測(cè)。 在某一研 究中, 與因變量 y 有關(guān)的因素看起來很多,而在回國(guó)方程中卻只宜選取部分與因 變量關(guān)系最密切的因素,選多了貌似很全面,實(shí)則效果很差。 因特X是世界上最為龐大的信息資源系統(tǒng), 它已成為全球范圍內(nèi)傳播和交流 科研信息、教育信息、商業(yè)信息和社會(huì)信息的重要渠道。人們要在這變化無窮而 又魚龍混雜的信息海洋中, 發(fā)現(xiàn)并查找出有重要利用價(jià)值的信息并不是一件十分 容易的事情。 因此對(duì)X絡(luò)信息資源進(jìn)行切實(shí)有效的信息檢索,并且對(duì)其做出實(shí)事 求是和恰如其分的評(píng)價(jià)是X絡(luò)

4、信息資源管理所面臨的挑戰(zhàn)之一。 X絡(luò)信息資源是 由具體的X站構(gòu)成的。對(duì)X絡(luò)信息資源評(píng)價(jià)除宏觀把握外就是對(duì)具體X站的評(píng) 價(jià)。但是各機(jī)構(gòu)會(huì)因其特質(zhì)與評(píng)價(jià)目的的差異,對(duì)評(píng)價(jià)項(xiàng)目有輕重之別。因而僅 靠有限的評(píng)價(jià)服務(wù)機(jī)構(gòu)是不能全面、 準(zhǔn)確和及時(shí)地反映因特X信息資源的變化情 況的。 二、 統(tǒng)計(jì)模型及分析 為了建立一個(gè)量化的評(píng)價(jià)模型,用評(píng)價(jià)指標(biāo)作為回歸變量,為了盡量減少信 息的損失,評(píng)價(jià)指標(biāo)的個(gè)數(shù)取得不能太少,我們?nèi)?24 個(gè)指標(biāo)。我們把各個(gè)評(píng)價(jià) 指標(biāo)用一個(gè)給定的變量來代替。 令: y 表示X站的總體得分;x1 表示內(nèi)容涉及主題的深度和廣度得分; x2 表示準(zhǔn)確性得分;x3 表示客觀性得分; x4 表示適用

5、性得分;x5 表示權(quán)威性得分; x6 表示獨(dú)特性得分;x7 表示時(shí)效性 3 4 探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在X站評(píng)價(jià)中的應(yīng)用 導(dǎo)讀:理的數(shù)據(jù)。為此我們不能把原始數(shù)據(jù)直接用于模型的參數(shù)估計(jì),必須剔除那些明顯不合理的數(shù)據(jù),例如,若總體得分比任何一個(gè)因素的得分都高,這種情況說明被調(diào)查者沒有客觀地去打分,所以此種調(diào)查結(jié)果是不可信的,另外,如果每一項(xiàng)的得分都是一樣的,此時(shí)這個(gè)調(diào)查結(jié)果沒有給我們提供任何信息,所有類似的不合理數(shù)據(jù)必須剔除,以保 得分; x8 表示信息得分; x9 表示創(chuàng)建者得分; x10 表示穩(wěn)定性得分; x11 表示安全性得分; x12 表示交互性得分; x13 表示可靠性得分; x1

6、4 表示導(dǎo)航系統(tǒng)得分;x15 表示創(chuàng)辦目的得分;x16 表示目的 及用戶得分;x17 表示寫作質(zhì)量得分;x18 表示用戶界面友好性得分; x19 表示外 觀設(shè)計(jì)得分; x20 表示多媒體設(shè)計(jì)得分;x21 表示檢索功能得分;x22 表示響應(yīng)速 度得分;x23 表示鏈接質(zhì)量得分;x24 表示組織結(jié)構(gòu)得分。根據(jù)線性回歸的概念、 原理,則我們可以建立下列線性模型:yi B0 Bi xii 4其中 Bi (i=0,1,2,24)是待定的常數(shù), Bi 的大小反映了因素 xi 對(duì)整 體得分貢獻(xiàn)的大小, Bi 的正負(fù)反映了因素 xi 整體得分是積極的影響或消極的影 響。 根據(jù)模型的要求必須得到每一個(gè)X站所有

7、24 個(gè)指標(biāo)的得分(滿分 100)和每個(gè) X站的綜合評(píng)價(jià)得分(滿分 100)。 ,由統(tǒng)計(jì)的知識(shí)可知,任何調(diào)查數(shù)據(jù)中都有不合 理的數(shù)據(jù)。 為此我們不能把原始數(shù)據(jù)直接用于模型的參數(shù)估計(jì),必須剔除那些明 顯不合理的數(shù)據(jù),例如,若總體得分比任何一個(gè)因素的得分都高,這種情況說明 被調(diào)查者沒有客觀地去打分,所以此種調(diào)查結(jié)果是不可信的,另外,如果每一項(xiàng) 的得分都是一樣的, 此時(shí)這個(gè)調(diào)查結(jié)果沒有給我們提供任何信息,所有類似的不 合理數(shù)據(jù)必須剔除, 以保證最終用于估計(jì)模型參數(shù)的數(shù)據(jù)都是合理的。為此我們 對(duì)原始數(shù)據(jù)進(jìn)行了初步的統(tǒng)計(jì)分析,找出異常(不合理)的數(shù)據(jù)把它刪除。以 sohu X站為評(píng)價(jià)對(duì)象,根據(jù)查找到的數(shù)

8、據(jù)可得下表 1。表 1 sohu X評(píng)價(jià)調(diào)查表三、 模型求解 在所得的數(shù)據(jù)的基礎(chǔ)上,利用合理的方法估計(jì)上述模型中的模型系數(shù) Bi ( i=0,1,2,24)。為此,先把所有的 xi(i=1,2,24)作為自變量,總體 得分 y 作為回歸變量, 以每個(gè)調(diào)查結(jié)果所反映的信息的大小(結(jié)果的方差)為權(quán)重, 對(duì)模型進(jìn)行了加權(quán)回歸分析??傻镁€性模型中的系數(shù) Bi 。具體結(jié)果見下表 2。表 2 模型系數(shù) Bi這樣我們就得到了X站的評(píng)價(jià)公式: y=85.768+2.32395x1-0.882819x2+0.846553x3+0.596732x4-1.19172x5+1.05937 x6+0.150462x7+

9、1.44957x8-0.274842x9+1.182x10+1.37353x11+1.21397x12+0.641875x13-0.314992x14-0.73023x15+1.07551x16+0.686684x17-0.187509x18-0.702599x19+0.873304x20-0.02746x21+1.77023x22+0.648203x23+0.124356x 3 4 探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在X站評(píng)價(jià)中的應(yīng)用 導(dǎo)讀: 24。 要利用此公式,只要把X站的 24 項(xiàng)的得分進(jìn)行標(biāo)準(zhǔn)化后代入評(píng)價(jià)公式,就 可以得到該X站的一個(gè)綜合得分,使得可以對(duì)X站進(jìn)行比較。 為了敘述方便, 用

10、m 表示合理數(shù)據(jù)記錄的個(gè)數(shù)(行), xij(i=1, 2, , m , j=1, 2,24)表示第 i 個(gè)記錄(行) 第 j 個(gè)因素(列)的值。原始數(shù)據(jù)的標(biāo)準(zhǔn)化: 記xi xij 2 i 44 , ( xij xi )2 (i=1,2,m) 24 i 1則標(biāo)準(zhǔn)化的數(shù)據(jù)為:xij * xij xii(i=1,2,m ,j=1,2,12)為了盡可能消除個(gè)人的影響、減小評(píng)價(jià)的誤差,定義:m 1 x xij2 (j=1,2,24) j m i 1 (j=1,2,24)就可以消除、減少不通被調(diào)查之間的差異,并減 這樣 x j小評(píng)價(jià)的誤差,所得結(jié)果見下表 3。 (j=1,2,24)的計(jì)算值 表3 x j

11、(j=1,2,24)代入綜合評(píng)價(jià)函數(shù)中得到綜合評(píng)價(jià)得分 y為 把表 3 中的 x jy =85.8 對(duì)X站進(jìn)行評(píng)價(jià)。 85.8,然后利用 四、 結(jié)果分析y 的區(qū)間估計(jì)我們必須得到估計(jì)的殘差平方和的平均值,為此,我 為了得到 們把調(diào)查的第 i 組標(biāo)準(zhǔn)化的數(shù)據(jù)代入綜合評(píng)價(jià)函數(shù),得到每個(gè)記錄的綜合得分估y 計(jì)值 (i)(i=1,2,m)然后利用公式 2 1 m (i ) ( y y ) 2 估計(jì)誤差的方差, m i 1這里 m 是有效的調(diào)查記錄的個(gè)數(shù)。經(jīng)過計(jì)算得到 =3.87,所以估計(jì)的X站評(píng)價(jià)y 的一 綜合得分 Y 服從正態(tài)分布 N(85.8,3.872),由此分布我們可以得到估計(jì)值 個(gè)置信度為

12、95%的置信區(qū)間(85.8-2×3.87,85.8+2×3.87)=(78.06,93.54),這表y 在區(qū)間(78.06,93.54)中。類似地,可以得到估計(jì)值 y 的一 明我們有 95%的把握 個(gè)置信度為 68%的置信區(qū)間(85.8-3.87,85.8+3.87)=(81.93,89.67),這表明我們y 在區(qū)間(81.93,89.67)中。利用 y 的 68%、95%置信區(qū)間(81.93, 有 68%的把握 y 的可信程度,從而使得我們對(duì)被評(píng) 89.67)、(78.06,93.54),考察綜合評(píng)價(jià)得分 估的 Sohu X站有一個(gè)綜合的評(píng)價(jià)。一般來說,若評(píng)價(jià)的置信區(qū)間越小,說明評(píng)y 的可信程度越高,若評(píng)價(jià)的置信區(qū)間越大,說明被調(diào)查對(duì)象對(duì)評(píng)價(jià)對(duì)象 價(jià)得分 y 的可信程度越小。在評(píng)價(jià)得分相同的條件下, 的評(píng)價(jià)不太一致,從而評(píng)價(jià)得分 置信區(qū)間小的評(píng)價(jià)對(duì)象更加優(yōu)秀因?yàn)榇藭r(shí)的得分更可信。 在實(shí)際工作中如何提高 結(jié)果的可信度-減小置信區(qū)間的長(zhǎng)度呢那就是增加被調(diào)查者的數(shù)目,從而使得 估計(jì)的標(biāo)準(zhǔn)差 3 4 探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在X站評(píng)價(jià)中的應(yīng)用 導(dǎo)讀:不能以這組數(shù)據(jù)的結(jié)果對(duì)這些X站進(jìn)行實(shí)際的評(píng)價(jià),如果想得到準(zhǔn)確的評(píng)價(jià),就要進(jìn)行大量數(shù)據(jù)的調(diào)查。同時(shí)利用這種統(tǒng)計(jì)方法可以評(píng)價(jià)出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論