




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在網(wǎng)站評(píng)價(jià)中的應(yīng)用 探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在X站評(píng)價(jià)中的應(yīng)用 導(dǎo)讀: 應(yīng)用數(shù)理統(tǒng)計(jì)課程小論文多元線性回歸在X站評(píng)價(jià)中的應(yīng)用摘要:在信息海洋中,發(fā)現(xiàn)并查找出有重要利用價(jià)值的信息并不是一件十分容易的事情。 因此對(duì)X絡(luò)信息資源進(jìn)行切實(shí)有效的信息檢索,并且對(duì)其做出實(shí)事求 是和恰如其分的評(píng)價(jià)是X絡(luò)信息資源管理所面臨的挑戰(zhàn)之一。本文以 sohu X站 為例,首先根據(jù)調(diào)查數(shù)據(jù)建立統(tǒng)計(jì)模型,然后進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行分析求解,最后 得出X站的總評(píng)分。 根據(jù)這一方法可以得出X站之間的排名,讓用戶清晰地看到 X站的使用率。關(guān)鍵字:信息檢索,sohu,統(tǒng)計(jì)模型,分析求解一、 問題的引入
2、在許多實(shí)際問題中,還會(huì)遇到一個(gè)隨機(jī)變量 y 與多個(gè)普通變量 x1,x2, xp (p>=2)的相關(guān)關(guān)系問題。在做回歸分析時(shí),人們根據(jù)問題本身的專業(yè)理論及有 關(guān)經(jīng)驗(yàn),常常需要把各種與因變量有關(guān)或可能有關(guān)的自變量考慮并引進(jìn)回歸模 型。例如,一種農(nóng)作物的畝產(chǎn)量可能與播種量、施肥量、澆水量、管理工時(shí)數(shù)等 有關(guān); 一個(gè)X站的好壞主要由X站的總體得分決定的,而X站的總體得分可能與 內(nèi)容涉及主題深度和廣度得分、準(zhǔn)確性得分、客觀性得分等因素有關(guān)。這種情況 下,僅僅考慮單個(gè)變量作自變量是不夠的,它不能對(duì)因變量以恰當(dāng)?shù)拿枋觯渌?多個(gè)關(guān)鍵自變量也以不通的方式影響著因變量。 如果根據(jù)只含有一個(gè)自變量的
3、回 歸模型來對(duì)因變量進(jìn)行預(yù)測(cè)的話,就會(huì)發(fā)現(xiàn)所做預(yù)測(cè)粗糙得簡(jiǎn)直毫無用處,采用 包含其他自變量的更復(fù)雜的模型則可以提供足夠精確地因變量的預(yù)測(cè)。 在某一研 究中, 與因變量 y 有關(guān)的因素看起來很多,而在回國(guó)方程中卻只宜選取部分與因 變量關(guān)系最密切的因素,選多了貌似很全面,實(shí)則效果很差。 因特X是世界上最為龐大的信息資源系統(tǒng), 它已成為全球范圍內(nèi)傳播和交流 科研信息、教育信息、商業(yè)信息和社會(huì)信息的重要渠道。人們要在這變化無窮而 又魚龍混雜的信息海洋中, 發(fā)現(xiàn)并查找出有重要利用價(jià)值的信息并不是一件十分 容易的事情。 因此對(duì)X絡(luò)信息資源進(jìn)行切實(shí)有效的信息檢索,并且對(duì)其做出實(shí)事 求是和恰如其分的評(píng)價(jià)是X絡(luò)
4、信息資源管理所面臨的挑戰(zhàn)之一。 X絡(luò)信息資源是 由具體的X站構(gòu)成的。對(duì)X絡(luò)信息資源評(píng)價(jià)除宏觀把握外就是對(duì)具體X站的評(píng) 價(jià)。但是各機(jī)構(gòu)會(huì)因其特質(zhì)與評(píng)價(jià)目的的差異,對(duì)評(píng)價(jià)項(xiàng)目有輕重之別。因而僅 靠有限的評(píng)價(jià)服務(wù)機(jī)構(gòu)是不能全面、 準(zhǔn)確和及時(shí)地反映因特X信息資源的變化情 況的。 二、 統(tǒng)計(jì)模型及分析 為了建立一個(gè)量化的評(píng)價(jià)模型,用評(píng)價(jià)指標(biāo)作為回歸變量,為了盡量減少信 息的損失,評(píng)價(jià)指標(biāo)的個(gè)數(shù)取得不能太少,我們?nèi)?24 個(gè)指標(biāo)。我們把各個(gè)評(píng)價(jià) 指標(biāo)用一個(gè)給定的變量來代替。 令: y 表示X站的總體得分;x1 表示內(nèi)容涉及主題的深度和廣度得分; x2 表示準(zhǔn)確性得分;x3 表示客觀性得分; x4 表示適用
5、性得分;x5 表示權(quán)威性得分; x6 表示獨(dú)特性得分;x7 表示時(shí)效性 3 4 探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在X站評(píng)價(jià)中的應(yīng)用 導(dǎo)讀:理的數(shù)據(jù)。為此我們不能把原始數(shù)據(jù)直接用于模型的參數(shù)估計(jì),必須剔除那些明顯不合理的數(shù)據(jù),例如,若總體得分比任何一個(gè)因素的得分都高,這種情況說明被調(diào)查者沒有客觀地去打分,所以此種調(diào)查結(jié)果是不可信的,另外,如果每一項(xiàng)的得分都是一樣的,此時(shí)這個(gè)調(diào)查結(jié)果沒有給我們提供任何信息,所有類似的不合理數(shù)據(jù)必須剔除,以保 得分; x8 表示信息得分; x9 表示創(chuàng)建者得分; x10 表示穩(wěn)定性得分; x11 表示安全性得分; x12 表示交互性得分; x13 表示可靠性得分; x1
6、4 表示導(dǎo)航系統(tǒng)得分;x15 表示創(chuàng)辦目的得分;x16 表示目的 及用戶得分;x17 表示寫作質(zhì)量得分;x18 表示用戶界面友好性得分; x19 表示外 觀設(shè)計(jì)得分; x20 表示多媒體設(shè)計(jì)得分;x21 表示檢索功能得分;x22 表示響應(yīng)速 度得分;x23 表示鏈接質(zhì)量得分;x24 表示組織結(jié)構(gòu)得分。根據(jù)線性回歸的概念、 原理,則我們可以建立下列線性模型:yi B0 Bi xii 4其中 Bi (i=0,1,2,24)是待定的常數(shù), Bi 的大小反映了因素 xi 對(duì)整 體得分貢獻(xiàn)的大小, Bi 的正負(fù)反映了因素 xi 整體得分是積極的影響或消極的影 響。 根據(jù)模型的要求必須得到每一個(gè)X站所有
7、24 個(gè)指標(biāo)的得分(滿分 100)和每個(gè) X站的綜合評(píng)價(jià)得分(滿分 100)。 ,由統(tǒng)計(jì)的知識(shí)可知,任何調(diào)查數(shù)據(jù)中都有不合 理的數(shù)據(jù)。 為此我們不能把原始數(shù)據(jù)直接用于模型的參數(shù)估計(jì),必須剔除那些明 顯不合理的數(shù)據(jù),例如,若總體得分比任何一個(gè)因素的得分都高,這種情況說明 被調(diào)查者沒有客觀地去打分,所以此種調(diào)查結(jié)果是不可信的,另外,如果每一項(xiàng) 的得分都是一樣的, 此時(shí)這個(gè)調(diào)查結(jié)果沒有給我們提供任何信息,所有類似的不 合理數(shù)據(jù)必須剔除, 以保證最終用于估計(jì)模型參數(shù)的數(shù)據(jù)都是合理的。為此我們 對(duì)原始數(shù)據(jù)進(jìn)行了初步的統(tǒng)計(jì)分析,找出異常(不合理)的數(shù)據(jù)把它刪除。以 sohu X站為評(píng)價(jià)對(duì)象,根據(jù)查找到的數(shù)
8、據(jù)可得下表 1。表 1 sohu X評(píng)價(jià)調(diào)查表三、 模型求解 在所得的數(shù)據(jù)的基礎(chǔ)上,利用合理的方法估計(jì)上述模型中的模型系數(shù) Bi ( i=0,1,2,24)。為此,先把所有的 xi(i=1,2,24)作為自變量,總體 得分 y 作為回歸變量, 以每個(gè)調(diào)查結(jié)果所反映的信息的大小(結(jié)果的方差)為權(quán)重, 對(duì)模型進(jìn)行了加權(quán)回歸分析??傻镁€性模型中的系數(shù) Bi 。具體結(jié)果見下表 2。表 2 模型系數(shù) Bi這樣我們就得到了X站的評(píng)價(jià)公式: y=85.768+2.32395x1-0.882819x2+0.846553x3+0.596732x4-1.19172x5+1.05937 x6+0.150462x7+
9、1.44957x8-0.274842x9+1.182x10+1.37353x11+1.21397x12+0.641875x13-0.314992x14-0.73023x15+1.07551x16+0.686684x17-0.187509x18-0.702599x19+0.873304x20-0.02746x21+1.77023x22+0.648203x23+0.124356x 3 4 探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在X站評(píng)價(jià)中的應(yīng)用 導(dǎo)讀: 24。 要利用此公式,只要把X站的 24 項(xiàng)的得分進(jìn)行標(biāo)準(zhǔn)化后代入評(píng)價(jià)公式,就 可以得到該X站的一個(gè)綜合得分,使得可以對(duì)X站進(jìn)行比較。 為了敘述方便, 用
10、m 表示合理數(shù)據(jù)記錄的個(gè)數(shù)(行), xij(i=1, 2, , m , j=1, 2,24)表示第 i 個(gè)記錄(行) 第 j 個(gè)因素(列)的值。原始數(shù)據(jù)的標(biāo)準(zhǔn)化: 記xi xij 2 i 44 , ( xij xi )2 (i=1,2,m) 24 i 1則標(biāo)準(zhǔn)化的數(shù)據(jù)為:xij * xij xii(i=1,2,m ,j=1,2,12)為了盡可能消除個(gè)人的影響、減小評(píng)價(jià)的誤差,定義:m 1 x xij2 (j=1,2,24) j m i 1 (j=1,2,24)就可以消除、減少不通被調(diào)查之間的差異,并減 這樣 x j小評(píng)價(jià)的誤差,所得結(jié)果見下表 3。 (j=1,2,24)的計(jì)算值 表3 x j
11、(j=1,2,24)代入綜合評(píng)價(jià)函數(shù)中得到綜合評(píng)價(jià)得分 y為 把表 3 中的 x jy =85.8 對(duì)X站進(jìn)行評(píng)價(jià)。 85.8,然后利用 四、 結(jié)果分析y 的區(qū)間估計(jì)我們必須得到估計(jì)的殘差平方和的平均值,為此,我 為了得到 們把調(diào)查的第 i 組標(biāo)準(zhǔn)化的數(shù)據(jù)代入綜合評(píng)價(jià)函數(shù),得到每個(gè)記錄的綜合得分估y 計(jì)值 (i)(i=1,2,m)然后利用公式 2 1 m (i ) ( y y ) 2 估計(jì)誤差的方差, m i 1這里 m 是有效的調(diào)查記錄的個(gè)數(shù)。經(jīng)過計(jì)算得到 =3.87,所以估計(jì)的X站評(píng)價(jià)y 的一 綜合得分 Y 服從正態(tài)分布 N(85.8,3.872),由此分布我們可以得到估計(jì)值 個(gè)置信度為
12、95%的置信區(qū)間(85.8-2×3.87,85.8+2×3.87)=(78.06,93.54),這表y 在區(qū)間(78.06,93.54)中。類似地,可以得到估計(jì)值 y 的一 明我們有 95%的把握 個(gè)置信度為 68%的置信區(qū)間(85.8-3.87,85.8+3.87)=(81.93,89.67),這表明我們y 在區(qū)間(81.93,89.67)中。利用 y 的 68%、95%置信區(qū)間(81.93, 有 68%的把握 y 的可信程度,從而使得我們對(duì)被評(píng) 89.67)、(78.06,93.54),考察綜合評(píng)價(jià)得分 估的 Sohu X站有一個(gè)綜合的評(píng)價(jià)。一般來說,若評(píng)價(jià)的置信區(qū)間越小,說明評(píng)y 的可信程度越高,若評(píng)價(jià)的置信區(qū)間越大,說明被調(diào)查對(duì)象對(duì)評(píng)價(jià)對(duì)象 價(jià)得分 y 的可信程度越小。在評(píng)價(jià)得分相同的條件下, 的評(píng)價(jià)不太一致,從而評(píng)價(jià)得分 置信區(qū)間小的評(píng)價(jià)對(duì)象更加優(yōu)秀因?yàn)榇藭r(shí)的得分更可信。 在實(shí)際工作中如何提高 結(jié)果的可信度-減小置信區(qū)間的長(zhǎng)度呢那就是增加被調(diào)查者的數(shù)目,從而使得 估計(jì)的標(biāo)準(zhǔn)差 3 4 探討數(shù)理統(tǒng)計(jì)論文多元線性回歸在X站評(píng)價(jià)中的應(yīng)用 導(dǎo)讀:不能以這組數(shù)據(jù)的結(jié)果對(duì)這些X站進(jìn)行實(shí)際的評(píng)價(jià),如果想得到準(zhǔn)確的評(píng)價(jià),就要進(jìn)行大量數(shù)據(jù)的調(diào)查。同時(shí)利用這種統(tǒng)計(jì)方法可以評(píng)價(jià)出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 元旦的快樂故事分享
- 醫(yī)院護(hù)理安全管理與保障
- 員工培訓(xùn)及學(xué)歷提升計(jì)劃
- 如何制定房地產(chǎn)項(xiàng)目的戰(zhàn)略目標(biāo)
- 腹腔鏡下輸尿管鏡手術(shù)技巧分享
- 春節(jié)小精靈淡藍(lán)色的卡通插畫
- BIM在環(huán)境保護(hù)工程中的應(yīng)用
- 保險(xiǎn)公司母親節(jié)策劃方案
- 保險(xiǎn)公司臘八節(jié)活動(dòng)方案
- 保險(xiǎn)公司門店活動(dòng)方案
- 做賬實(shí)操-醫(yī)美公司的全盤賬務(wù)處理怎么做
- 河南省TOP二十名校2024-2025學(xué)年高一下學(xué)期5月調(diào)研考試化學(xué)(A卷)試卷(圖片版含答案)
- 安徽省合肥八中2025屆高三最后一卷生物試題及答案
- 維持阻塞型D觸發(fā)器邏輯功能分析32課件
- 浙江省溫州市名校2025屆七下數(shù)學(xué)期末考試試題含解析
- 2024-2025學(xué)年上課趣味互動(dòng)《太乙懲罰》課件
- 公司合同月結(jié)協(xié)議書
- 2024年中國(guó)近代史綱要期末復(fù)習(xí)題庫
- 2025屆楊浦區(qū)中考化學(xué)三模
- 燃脂塑形內(nèi)衣套裝行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 2024年高考化學(xué)試卷(山東)(解析卷)
評(píng)論
0/150
提交評(píng)論