




已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
常用統(tǒng)計(jì)方法用R實(shí)現(xiàn),描述性統(tǒng)計(jì),位置的度量:均值、順序統(tǒng)計(jì)量、中位數(shù)、百分位數(shù)。均值計(jì)算:,若x是向量、矩陣,則mean(x)返回其全部元素均值。若要返回?cái)?shù)組某一維的均值:apply(x,dim,mean);dim=1計(jì)算行均值,dim=2計(jì)算列均值。若x是數(shù)據(jù)框,則mean(x)返回各列的均值Mean的一般用法:mean(x,trim=0,na.rm=FALSE)trim指定去掉x兩端數(shù)的比例;na.rm=TRUE允許有缺失值。類似有sum(x)函數(shù)可求x的和。,順序統(tǒng)計(jì)量,將n個(gè)數(shù)據(jù)(觀測(cè)值)按從小到大的順序排列后,稱其為順序統(tǒng)計(jì)量.函數(shù)sort(x)給出了樣本x的順序統(tǒng)計(jì)量order()給出排序后的下標(biāo)rank()給出了樣本x的秩次統(tǒng)計(jì)量x-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5)sort(x)order(x),中位數(shù),中位數(shù)描述數(shù)據(jù)中心位置的數(shù)字特征.大體上比中位數(shù)大或小的數(shù)據(jù)個(gè)數(shù)為整個(gè)數(shù)據(jù)的一半.對(duì)于對(duì)稱分布的數(shù)據(jù),均值與中位數(shù)比較接近;對(duì)于偏態(tài)分布的數(shù)據(jù),均值與中位數(shù)不同.中位數(shù)的又一顯著特點(diǎn)是不受異常值的影響,具有穩(wěn)健性,因此它是數(shù)據(jù)分析中相當(dāng)重要的統(tǒng)計(jì)量.在R軟件中,函數(shù)median()給觀測(cè)量的中位數(shù).如x-c(75,64,47.4,66.9,62.2,62.2,58.7,63.5)median(x)median(x,na.rm=TRUE)#若數(shù)據(jù)中有缺失值,百分位數(shù),百分位數(shù)(percentile)是中位數(shù)的推廣.將數(shù)據(jù)按從小到大的排列后,0p1,它的p分位點(diǎn)定義為:,在R軟件中,quantile()函數(shù)計(jì)算觀測(cè)量的百分位數(shù).如w-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,57.0,69.0,56.9,50.0,72.0)quantile(w)一般用法:quantile(x,probs=seq(0,1,0.25),na.rm=FALSE),分散程度的度量,表示數(shù)據(jù)分散(或變異)程度的特征量有方差、標(biāo)準(zhǔn)差、極差、四分位極差、變異系數(shù)和標(biāo)準(zhǔn)誤等.在R軟件中,用var()和sd()計(jì)算方差、標(biāo)準(zhǔn)差:var(x,na.rm=FALSE,)sd(x,na.rm=FALSE),變異系數(shù)、平方和,對(duì)于變異系數(shù)、校正平方和、未校正平方和等指標(biāo),需要編寫簡(jiǎn)單的程序.變異系數(shù)CV計(jì)算:cv-100*sd(x)/mean(x);cv校正平方和CSS:css-sum(x-mean(x)2);css未校正平方和USS:uss-sum(x2);uss,極差與標(biāo)準(zhǔn)誤,樣本極差(記為R)的計(jì)算:R=max(x)-min(x)樣本上、下四分位數(shù)之差稱為四分位差(或半極差),記為R1.它也是度量樣本分散性的重要數(shù)字特征,特別對(duì)于具有異常值的數(shù)據(jù),它作為分散性具有穩(wěn)健性,因此在穩(wěn)健性數(shù)據(jù)分析中具有重要作用.半極差計(jì)算:R1=quantile(x,0.75)-quantile(x,0.25)樣本標(biāo)準(zhǔn)誤(記為sm)定義為s/sqrt(n)樣本標(biāo)準(zhǔn)誤計(jì)算:sm=sd(x)/sqrt(length(x),分布形狀的度量,偏度系數(shù)Kurtosis是刻劃數(shù)據(jù)的對(duì)稱性指標(biāo).關(guān)于均值對(duì)稱的數(shù)據(jù)其偏度系數(shù)為0.右側(cè)更分散的數(shù)據(jù)偏度系數(shù)為正,左側(cè)更分散的數(shù)據(jù)偏度系數(shù)為負(fù).當(dāng)數(shù)據(jù)的總體分布為正態(tài)分布時(shí),峰度系數(shù)Skewness近似為0;當(dāng)峰度系數(shù)為正時(shí),兩側(cè)極端數(shù)據(jù)較多;當(dāng)峰度系數(shù)為負(fù)時(shí),兩側(cè)極端數(shù)據(jù)較少.,偏度系數(shù)Skewness,樣本峰度系數(shù)sk計(jì)算程序n-length(x)m-mean(x)s-sd(x)sk-n/(n-1)*(n-2)*sum(x-m)3)/s3計(jì)算公式,峰度系數(shù)Kurtosis計(jì)算,樣本峰度系數(shù)ku計(jì)算程序n-length(xm-mean(x)s-sd(x)ku-(n*(n+1)/(n-1)*(n-2)*(n-3)*sum(x-m)4)/s4-(3*(n-1)2)/(n-2)*(n-3)計(jì)算公式,相關(guān)分析,R軟件采用用cov()函數(shù)計(jì)算協(xié)方差或協(xié)方差陣,用cor()函數(shù)計(jì)算相關(guān)矩陣(相關(guān)系數(shù))。函數(shù)cov()和cor()的使用格式為:cov(x,y=NULL,use=all.obs“,method=c(pearson,kendall,spearman)cor(x,y=NULL,use=all.obs“,method=c(pearson,kendall,spearman)其中x是數(shù)值型向量、矩陣或數(shù)據(jù)框.y是空值(NULL,缺省值)、向量、矩陣或數(shù)據(jù)框,但需要與x的維數(shù)相一致.與cov和cor有關(guān)的函數(shù)還有:cov.wt-計(jì)算加權(quán)協(xié)方差(加權(quán)協(xié)方差矩陣);cor.test-計(jì)算相關(guān)性檢驗(yàn).,相關(guān)分析示例,例為了解某種橡膠的性能,今抽取10個(gè)樣品,每個(gè)測(cè)量三項(xiàng)指標(biāo):硬度、變形和彈性(rubber.txt).試計(jì)算樣本均值、樣本協(xié)方差陣和樣本相關(guān)矩陣.并用Pearson相關(guān)性檢驗(yàn)確認(rèn)變量X1,X2,X3是否相關(guān)?rubber-read.table(d:/rubber.txt)mean(rubber)cov(rubber)cor(rubber)cor.test(X1+X2,data=rubber)cor.test(X1+X3,data=rubber)cor.test(X2+X3,data=rubber),回歸分析,案例:根據(jù)經(jīng)驗(yàn),在人的身高相等的情況下,血壓的收縮壓Y與體重X1(千克)、年齡X2(歲數(shù))有關(guān).現(xiàn)收集了13個(gè)男子的數(shù)據(jù),見(jiàn)表.試建立Y關(guān)于X1,X2的線性回歸方程.估計(jì)出Y=b0+b1X1+b2X2F檢驗(yàn):H0:b1=b2=0.T檢驗(yàn):H0:bj=0j=0,1,2,求解程序,blood-data.frame(X1=c(76.0,91.5,85.5,82.5,79.0,80.5,74.5,79.0,85.0,76.5,82.0,95.0,92.5),X2=c(50,20,20,30,30,50,60,50,40,55,40,40,20),Y=c(120,141,124,126,117,125,123,125,132,123,132,155,147)#建立數(shù)據(jù)框lm.sol-lm(YX1+X2,data=blood)#進(jìn)行回歸分析summary(lm.sol)#匯總分析結(jié)果Y=-62.96+2.136X1+0.4002X2.預(yù)測(cè):X=(80,40)時(shí),相應(yīng)Y的概率為0.95的預(yù)測(cè)區(qū)間.new-data.frame(X1=c(80,75),X2=c(40,38)lm.pred|t|)(Intercept)-62.9633616.99976-3.7040.004083*X12.136560.1753412.1852.53e-07*X20.400220.083214.8100.000713*-Signif.codes:0*0.001*0.01*0.05.0.11Residualstandarderror:2.854on10degreesoffreedomMultipleR-squared:0.9461,AdjustedR-squared:0.9354F-statistic:87.84on2and10DF,p-value:4.531e-07預(yù)測(cè)結(jié)果如下:fitlwrupr1123.9699117.2889130.6509,回歸診斷,par(mfrow=c(2,2)#設(shè)置畫圖為2x2的格式plot(lm.sol,which=c(1:4)#模型檢驗(yàn)4張圖,包括殘差圖、QQ圖和Cook距離圖數(shù)據(jù)太少,上面診斷結(jié)果并不理想。library(car)#載入程序包Car,vif()函數(shù)在其內(nèi)round(vif(lm.sol),2)#計(jì)算模型的方差膨脹因子,用2位小數(shù)點(diǎn)的格式展示各變量的方差膨脹因子情況如下:X1X21.961.96可以看到所有參數(shù)估計(jì)的VIFj=1/(1-Rj2)值都遠(yuǎn)遠(yuǎn)小于10,并且接近1。因此這里我們不用擔(dān)心多重共線性的問(wèn)題。,二項(xiàng)選擇模型,當(dāng)我們考慮多個(gè)連續(xù)解釋變量對(duì)某個(gè)取0-1值的響應(yīng)變量的影響時(shí),R中常用probit或logit回歸來(lái)分析。probit:-1(PY=1)=0+Xlogit:logit(PY=1)=log(PY=1/(1-PY=1)=0+X對(duì)二項(xiàng)選擇的probit/logit回歸,R軟件可用glm()處理.fm-glm(formula,family=binomial(link=probit),data=data.frame)fm-glm(formula,family=binomial(link=logit),data=data.frame)在用glm()函數(shù)處理二項(xiàng)選擇模型時(shí),公式中響應(yīng)變量y的輸入形式有兩種:1、y中第一列為對(duì)應(yīng)自變量的響應(yīng)次數(shù),第2列是不響應(yīng)的次數(shù);2、y是只由0、1構(gòu)成的向量,分別表示對(duì)應(yīng)自變量取值是不響應(yīng)還是相應(yīng)。,二項(xiàng)選擇案例1,研究小電流對(duì)農(nóng)場(chǎng)動(dòng)物的影響.選擇了7頭牛,6種電擊強(qiáng)度0,1,3,4,5毫安.給出每種電擊強(qiáng)度70次試驗(yàn)中牛發(fā)生響應(yīng)的總次數(shù).試分析電擊對(duì)牛的影響。,案例1的程序,norell-data.frame(x=0:5,n=rep(70,6),success=c(0,9,21,47,60,63)norell$Ymat-cbind(norell$success,norell$n-norell$success)glm.sol-glm(Ymatx,family=binomial,data=norell)#logit回歸#glm.sol-glm(Ymatx,family=binomial(link=probit),data=norell)summary(glm.sol)預(yù)測(cè):pre-predict(glm.sol,data.frame(x=3.5)p-exp(pre)/(1+exp(pre);pd-seq(0,5,len=100)pre-predict(glm.sol,data.frame(x=d)p-exp(pre)/(1+exp(pre)norell$y-norell$success/norell$nplot(norell$x,norell$y);lines(d,p),二項(xiàng)選擇案例2,50位急性林巴細(xì)胞性白血病病人,在入院治療時(shí)取得了外轅血中的細(xì)胞數(shù)X1、林巴結(jié)浸潤(rùn)等級(jí)X2(分為0,1,2,3級(jí));出院后有無(wú)鞏固治療X3(1”表示有鞏固治療,0”表示無(wú)鞏固治療).并取得病人的生存時(shí)間,Y=0表示生存時(shí)間在1年以內(nèi),Y=1表示生存時(shí)間在1年或1年以上.試分析病人生存時(shí)間長(zhǎng)短的概率與X1,X2,X3的關(guān)系.,案例2的程序,life-data.frame(X1=c(2.5,173,119,10,502,4,14.4,2,40,6.6,21.4,2.8,2.5,6,3.5,62.2,10.8,21.6,2,3.4,5.1,2.4,1.7,1.1,12.8,1.2,3.5,39.7,62.4,2.4,34.7,28.4,0.9,30.6,5.8,6.1,2.7,4.7,128,35,2,8.5,2,2,4.3,244.8,4,5.1,32,1.4),X2=rep(c(0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2,0,2,0),c(1,4,2,2,1,1,8,1,5,1,5,1,1,1,2,1,1,1,3,1,2,1,4),X3=rep(c(0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1),c(6,1,3,1,3,1,1,5,1,3,7,1,1,3,1,1,2,9),Y=rep(c(0,1,0,1),c(15,10,15,10)glm.sol-glm(YX1+X2+X3,family=binomial,data=life)summary(glm
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024昌吉職業(yè)技術(shù)學(xué)院輔導(dǎo)員招聘筆試真題
- 2025年衢州龍游縣機(jī)關(guān)事業(yè)單位招聘考試試題【答案】
- 2025年血液灌流吸附器合作協(xié)議書
- 2025年河北石家莊學(xué)院選聘事業(yè)單位工作人員考試試題【答案】
- 2025年梧州岑溪市選聘市區(qū)學(xué)校專任教師考試試題【答案】
- 2025年內(nèi)江市隆昌市教育和體育局選拔教師考試筆試試題【答案】
- 工商聯(lián)會(huì)員代表大會(huì)工作報(bào)告
- 2025年DH(DHP)離心壓縮機(jī)項(xiàng)目合作計(jì)劃書
- 2025年高純超細(xì)石英粉項(xiàng)目建議書
- 2025年應(yīng)用軟件設(shè)計(jì)服務(wù)項(xiàng)目合作計(jì)劃書
- 獸醫(yī)公共衛(wèi)生概論期末復(fù)習(xí)資料
- 湖南省張家界市(2024年-2025年小學(xué)六年級(jí)語(yǔ)文)部編版期末考試((上下)學(xué)期)試卷及答案
- 吉林農(nóng)業(yè)大學(xué)《無(wú)機(jī)化學(xué)及分析化學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 血透室職業(yè)安全防護(hù)制度
- 中國(guó)腫瘤藥物治療相關(guān)惡心嘔吐防治專家共識(shí)(2022年版)解讀
- 蔬菜基地建設(shè)項(xiàng)目可行性研究報(bào)告
- 玻璃幕墻施工方案
- 2024年國(guó)家開(kāi)放大學(xué)(電大)-國(guó)家開(kāi)放大學(xué)(病理學(xué)與病理生理學(xué))考試近5年真題集錦(頻考類試題)帶答案
- 遼寧省沈陽(yáng)市(2024年-2025年小學(xué)四年級(jí)語(yǔ)文)人教版期末考試((上下)學(xué)期)試卷及答案
- DB34∕T 3830-2021 裝配式建筑評(píng)價(jià)技術(shù)規(guī)范
- 武進(jìn)區(qū)橫山橋高級(jí)中學(xué)申報(bào)四星級(jí)高中自評(píng)報(bào)告
評(píng)論
0/150
提交評(píng)論