R語言非參數(shù)檢驗_第1頁
R語言非參數(shù)檢驗_第2頁
R語言非參數(shù)檢驗_第3頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1. R語言卡方檢驗皮爾森擬合優(yōu)度塔防檢驗。假設(shè)H0:總體具有某分布 F備擇假設(shè)H1:總體不具有該分布。我們將數(shù)軸分成若干個區(qū)間,所抽取的樣本會分布在這些區(qū)間中。在原假設(shè)成立的條件下,我們便知道每個區(qū)間包含樣本的個數(shù)的期望值。用實際值Ni與期望值Npi可以構(gòu)造統(tǒng)計量K。皮爾森證明,n趨向于無窮時,k收斂于m-1的塔防分布。m為我們分組的個數(shù)。有了 這個分布,我們就可以做假設(shè)檢驗。例去X某消燈者懈會為了樋定帀場上消疣書對占井為牌吐滔的鼻桁復(fù)底,隨機(jī) 抽朋了 1000名喊酒唆好者作為樣軟進(jìn)疔4 F汛騎;每個人將到5神品髀的常酒 備一龜,但未標(biāo)明牌子“這疔料啤鬲按分別寫著.4* 隊 C、D. E字刃

2、:的 5帳紙片施機(jī)的順序遇給每 f 人.和£1是根搐樣本計料整理稈到的各種品牌 啤酒愛好番的頻數(shù)分布.試糧捱這些數(shù)船判斷消聲靑對這占種弗牌呻消的愛好 孫尢明顯養(yǎng)異?表二1;仃種品牌啤酒愛好老釣頻數(shù)畏応的牌子ABCDE人itx210312170S5223#如果是均勻分布,則沒有明顯差異。這里組其實已經(jīng)分好了,直接用 。H0:人數(shù)服從均勻分布> x <- c(210,312,170,85,223)> n <- sum(x); m <- le ngth(x)> p <- rep(1/m,m)> K <- sum(x-n*p)A2/(n*

3、p); K # 計算出 K值1 136.49> p <- 1-pchisq(K,m-1); p #計算出 p 值1 0 #拒絕原假設(shè)。在R語言中chisq.test(),可以完成擬合優(yōu)度檢驗。默認(rèn)就是檢驗是否為均勻分布,如果是其他分布,需要自己分組,并在參數(shù)p中指出。上面題目的解法:chisq.test(x)Chi-squared test for give n probabilitiesdata: xX-squared = 136.49, df = 4, p-value < 2.2e-16 # 同樣拒絕原假設(shè)。例,用這個函數(shù)檢驗其他分布。抽取31名學(xué)生的成績,檢驗是否為正態(tài)

4、分布。> x <- c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85, 86,86,86,87,89,89,89,90,91,91,92,100)> A <- table(cut(x,breaks=c(0,69,79,89,100) # 對樣本數(shù)據(jù)進(jìn)行分組。 > A(0,69 (69,79 (79,89 (89,1008 5 13 5> p <- pnorm(c(70,80,90,100),mean(x),sd(x) # 獲得理論分布的概率值> p <- c(p1,p2-p

5、1,p3-p2,1-p3)> chisq.test(A,p=p)Chi-squared test for given probabilitiesdata: AX-squared = 8.334, df = 3, p-value = 0.03959 #檢驗結(jié)果不是正態(tài)的。例:大麥雜交后關(guān)于芒性的比例應(yīng)該是 無芒:長芒:短芒 =9:3:4 。 我們的實際觀測值是 335:125: 160 。請問觀測值是否符合預(yù)期?> p <- c(9/16,3/16,4/16)> x <- c(335,125,160)> chisq.test(x,p=p)Chi-squared

6、 test for given probabilitiesdata: xX-squared = 1.362, df = 2, p-value = 0.5061在分組的時候要注意,每組的頻數(shù)要大于等于 5. 如果理論分布依賴于多個未知參數(shù),只能先由樣本得到參數(shù)的估計量。然后構(gòu)造統(tǒng)計量K,此時 K 的自由度減少位置參數(shù)的數(shù)量個。2. R 語言 ks 檢驗。R語言中提供了 ks.test()函數(shù),理論上可以檢驗任何分布。他既能夠做單樣本檢驗,也能做 雙樣本檢驗。單樣本 例:記錄一臺設(shè)備無故障工作時常,并從小到大排序 420 500 920 1380 1510 1650 1760 2100 2300

7、2350 。問這些時間是否服從拉姆達(dá) =1/1500 的指數(shù)分布?> x <- c(420,500,920,1380,1510,1650,1760,2100,2300,2350)> ks.test(x,"pexp",1/1500)One-sample Kolmogorov-Smirnov testdata: xD = 0.3015, p-value = 0.2654 alternative hypothesis: two-sided雙樣本 例:有兩個分布,分別抽樣了一些數(shù)據(jù),問他們是否服從相同的分布。> X<-sca n()1: 0.61 0.

8、29 0.06 0.59 -1.73 -0.74 0.51 -0.56 0.3910: 1.64 0.05 -0.06 0.64 -0.82 0.37 1.77 1.09 -1.2819: 2.36 1.31 1.05 -0.32 -0.40 1.06 -2.4726:Read 25 items> Y<-sca n()1: 2.20 1.66 1.38 0.20 0.36 0.00 0.96 1.56 0.4410: 1.50 -0.30 0.66 2.31 3.29 -0.27 -0.37 0.38 0.7019: 0.52 -0.7121:Read 20 items> k

9、s.test(X,Y)Two-sample Kolmogorov-Smirnov test #原假設(shè)為 他們的分布相同data: X and YD = 0.23, p-value = 0.5286alter native hypothesis: two-sided3.R語言列聯(lián)表數(shù)據(jù)獨立性檢驗。chisq.test()同樣可以做列聯(lián)表數(shù)據(jù)獨立性檢驗,只要將數(shù)據(jù)寫成矩陣的形式就可以了?;寄[癌未患肺癌金計吸煙G03292不吸煙31114合計6343106> x <- matrix(c(60,3,32,11),nrow=2) #參數(shù)correct是邏輯變量 表示帶不帶連續(xù)矯正。>

10、x,1 ,21,60322,311> chisq.test(x)Pears on's Chi-squared test with Yates' con ti nuity correct iondata: xX-squared = 7.9327, df = 1, p-value = 0.004855# 拒絕假設(shè) 認(rèn)為有關(guān)系如果一個單元格內(nèi)的數(shù)據(jù)小于5那么做pearson檢驗是無效的。此時應(yīng)該使用Fisher精確檢驗。例546 Jfc醫(yī)師為斫梵匕肝屯疫球蛋白惜仿胎兒宮內(nèi)感染陸效采,將 朋 M HBsAg陽惟孚啟隨機(jī)分為預(yù)障注射蛆招琴脛組,結(jié)呆曲麥工7所示,問兩蛆 軒生兒的H1

11、3V ,1休惡染率亦無基別?養(yǎng) 5 兩組新生兒HBV感染率的比較奴別陽性合計恿染帶(%)預(yù)馬注射蛆4182218.18561145.4592427.27> x <- matrix(c(4,5,18,6), nrow=2),1 ,21,4 182,56> fisher.test(x)Fisher's Exact Test for Count Datadata: xp-value = 0.121alter native hypothesis: true odds ratio is not equal to 195 perce nt con fide nee in terv

12、al:0.03974151 1.76726409 #p值大與0.05,區(qū)間估計包含1,所以認(rèn)為沒有關(guān)系。sample estimates:odds ratio0.2791061McNemar檢驗。這個不是相關(guān)性檢驗。是配對卡方檢驗。也就是說,我們是對一個樣本做了兩次觀測,本身不是獨立的樣本而是相關(guān)的樣本,而我們檢驗的是變化的強度。H0:頻數(shù)沒有發(fā)生變化。表丄相依配對計數(shù)資料治療后具有掛狀A(yù)治療后不具肓癥狀A(yù)治療前不縣有iStt Aa.5.n要大于100.治療前耳肓韭杖A=用法就不舉例了。單元格內(nèi)數(shù)字不得小于4. R語言符號檢驗。當(dāng)我們以中位數(shù)將數(shù)據(jù)分為兩邊,一邊為正,一邊為負(fù),那么樣本出現(xiàn)在兩

13、邊的概率應(yīng)該都為1/2。因此,使用p=0.2的二項檢驗就可以做符號檢驗了。例:統(tǒng)計了 66個城市的生活花費指數(shù),北京的生活花費指數(shù)為99。請問北京是否位于中位數(shù)以上。> x <- sea n()1: 66 75 78 80 81 81 82 83 83 83 8312: 84 85 85 86 86 86 86 87 87 88 8823: 88 88 88 89 89 89 89 90 90 91 9134: 91 91 92 93 93 96 96 96 97 99 10045: 101 102 103 103 104 104 104 105 106 109 10956: 11

14、0 110 110 111 113 115 116 117 118 155 19267:Read 66 items> bino m.test(sum(x>99),le ngth(x),alter native="less")Exact bi no mial testdata: sum(x > 99) and len gth(x)nu mber of successes = 23, nu mber of trials = 66, p-value = 0.009329 alter native hypothesis: true probability of s

15、uccess is less tha n 0.595 perce nt con fide nee in terval:0.0000000 0.4563087sample estimates:probability of success0.3484848#北京位于中位數(shù)下。符號檢驗也可以用來檢驗兩個總體是否存在明顯差異。要是沒有差異,那么兩者之差為正的概率為0.5.例5.19用兩種貳同的飼蚪器措,其贈奎能況如皮5.10示*淡分析兩爭飼鐘表不同詞料并豬的增重悄況對編號123 45G7891011121314飼料X2528 232735薊283229:!(#303i16飼抖Y193221192531

16、2G302528312523> y <- c(19,32,21,19,25,31,31,26,30,25,28,31,25,25)> x <- c(25,30,28,23,27,35,30,28,32,29,30,30,31,16)> bino m.test(sum(x<y),le ngth(x)Exact bi no mial test data: sum(x < y) and len gth(x)nu mber of successes = 4, nu mber of trials = 14, p-value = 0.1796alter nativ

17、e hypothesis: true probability of success is not equal to 0.595 perce nt con fide nee in terval:0.08388932 0.58103526sample estimates:probability of success0.2857143#無明顯差異。這個例子不是很好例亂2D某優(yōu)斜店為了孵斶宕對伏料的密奸措況,進(jìn)一步敗進(jìn)他們的工作,彬 容棄歡咖啡還是喜歡奶茶,或者兩者同樣盍好進(jìn)脊了調(diào)查.諫店農(nóng)集日隨機(jī)地柚 職了打幾頤容進(jìn)疔了調(diào)查,踰需舂歡歸啡起過舗茶用正號衣示,亦歡舗茶趙過 咖唏用負(fù)號衣示的者同樣愛號用

18、。衣示.現(xiàn)書賜査芮結(jié)最列冷衣£打中.試表工11:不同頗客的愛好情況12314567 iJ 9101112131 11 i 011 1 1 1轟歡訶寮1I1題目中標(biāo)識為0的意思是兩者同樣喜歡。> bin om.test(3,12,alternative="less",co nf.level=0.9)Exact bi no mial testdata: 3 and 12nu mber of successes = 3, nu mber of trials = 12, p-value = 0.073alter native hypothesis: true pro

19、bability of success is less tha n 0.590 perce nt con fide nee in terval:0.0000000 0.4752663sample estimates:probability of success #p<0.1接受備擇假設(shè)認(rèn)為有差異0.255. R語言秩相關(guān)檢驗。在R語言中,rank()函數(shù)用來求秩,如果向量中有相同的數(shù)據(jù),求出的秩可能不合我們的要 求,對數(shù)據(jù)做微調(diào)即可> x <- c(1.2,0.8,-3.1,2,1.2)> ran k(x)1 3.5 2.0 1.0 5.0 3.5> x <

20、- c(1.2,0.8,-3.1,2,1.2+1e-5)> ran k(x)1 3 2 1 5 4利用秩可以做相關(guān)性檢驗。cor.test( method="spearma n,ke ndell")6. R語言wilcoxon檢驗。符號檢驗只考慮了符號,沒有考慮要差異的大小。wilcoxon解決了這個問題。假設(shè),數(shù)據(jù)是連續(xù)分布的,數(shù)據(jù)是關(guān)于中位數(shù)對稱的。例:某電池廠商生產(chǎn)的電池中位數(shù)為140.現(xiàn)從新生產(chǎn)的電池中抽取20個測試。請問電池是否合格> x <- c(137,140,138.3,139,144.3,139.1,141.7,137.3,133.5,1

21、38.2,141.1,139.2,136.5,136.5,135.6, 138,140.9,140.6,136.3,134.1)> wilcox.test(x,mu=140,alternative="less",exact=F,correct=F,c on fi.i nt=T)Wilcox on sig ned rank testdata: xV = 34, p-value = 0.007034alter native hypothesis: true locati on is less tha n 140 wilcox.test()做成對樣本檢測。2小塊,分別用不同

22、的化肥種菜。請問例:在農(nóng)場中選擇了 10塊農(nóng)田,將每一塊農(nóng)田分成 化肥會不會提高蔬菜產(chǎn)量。> x <- c(459,367,303,392,310,342,421,446,430,412)> y <- c(414,306,321,443,281,301,353,391,405,390)> wilcox.test(x-y,alter native="greater")Wilcox on sig ned rank testdata: x - yV = 47, p-value = 0.02441alter native hypothesis: true locati on is greater tha n 0 # 能夠提高產(chǎn)量 非配對雙樣本檢測:例5.26傘測殍10乳非毎作業(yè)工人和7扃轄作業(yè)工人的血掘值,如也5.15 示. 讖用 Wilcoxnn ft.和£

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論