SAS講義 第二十四課總體均值的估計.doc_第1頁
SAS講義 第二十四課總體均值的估計.doc_第2頁
SAS講義 第二十四課總體均值的估計.doc_第3頁
SAS講義 第二十四課總體均值的估計.doc_第4頁
SAS講義 第二十四課總體均值的估計.doc_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

64a8b237229bded23bd35b9e6974d213.pdf SAS系統(tǒng)和數(shù)據(jù)分析 電子商務系列第二十四課 總體均值的估計對于樣本來自正態(tài)總體和方差齊性的基本假設,根據(jù)觀察結(jié)果(結(jié)果變量或反映變量)的水平數(shù),一元時基本的分析方法有檢驗、檢驗,多元時用多元檢驗(或Wilks檢驗)。一. 計量資料的統(tǒng)計指標測定每個觀察單位某項指標值的大小,所得的資料稱為計量資料(measurement data)又稱測量資料,這類資料一般具有計量單位。計量資料的統(tǒng)計指標分成兩大類:l 表達計量資料集中位置的指標,用以描述觀察值的平均水平,如算術(shù)均值、幾何均值、調(diào)和均值、中位數(shù)、眾數(shù)、百分位數(shù)。l 表達計量資料變異的指標,又稱離散指標,用以描述觀察值間參差別不齊的程度,即離散度或稱變異度,如全距、標準差、方差、標準誤差、變異系數(shù)、四分位數(shù)間距等。設原始觀察值為,第組頻數(shù)記為,組中值記為。在不發(fā)生混淆的場合,有時將下標省略,如,有時簡記為。1 集中位置的指標1) 算術(shù)平均值算術(shù)平均值(arithmetic mean)簡稱為均值(mean),總體均值用希臘字母表示,樣本均值用表示。算術(shù)平均值的具體計算方法分為簡單算術(shù)平均和加權(quán)算術(shù)平均兩種。簡單算術(shù)平均為:(24.1)加權(quán)算術(shù)平均為:(24.2)算術(shù)平均值有兩個重要的數(shù)學性質(zhì):各個變量值與平均值離差之和等于零,各個變量值與平均值的離差平方之和為最小值。2) 幾何均值幾何均值(geometric mean)用表示,為觀察值的總乘積開次方根。根據(jù)資料是否分組,也分為簡單幾何平均和加權(quán)幾何平均兩種方法。簡單幾何平均為:(24.3)為避免溢出及方便計算,常用對數(shù)計算,也稱對數(shù)平均值,兩邊取對數(shù)有:(24.4)3) 加權(quán)幾何平均為:(24.5)幾何均值適用于表達呈對數(shù)正態(tài)分布資料的平均水平。也常用于速度、比率等變量的平均。4) 調(diào)和均值調(diào)和均值(harmonic mean )用表示,為觀察值的倒數(shù)求平均,然后再取倒數(shù)而得到的平均值,也稱倒數(shù)平均值。調(diào)和平均值有簡單調(diào)和平均值與加權(quán)調(diào)和平均值兩種。簡單調(diào)和平均值為:(24.5)加權(quán)調(diào)和平均值為:(24.6)調(diào)和均值適用于表達呈極嚴重的正偏態(tài)分布資料的平均水平。5) 中位數(shù)中位數(shù)(median)用表示,它將總體或樣本的全部觀察值分成兩部分,每部分各有50%個觀察值,其計算方法為:先將原始觀察值按由小到大順序排列后,位次處于中間的那個觀察值為中位數(shù)。觀察值為奇數(shù)時,處于中間的那個數(shù)為中位數(shù)。偶數(shù)時處于中間的兩個數(shù)的均值為中位數(shù)。中位數(shù)是位置平均值,它不受極端值的影響,在具有個別極大或極小值的分布數(shù)列中,中位數(shù)比算術(shù)平均值更具有代表性。6) 眾數(shù)頻數(shù)最大的變量值稱為眾數(shù)(mode),列為頻數(shù)表的資料,頻數(shù)最大的組的組中值為眾數(shù)。適用于粗略地表示呈單峰分布資料的集中趨勢。當數(shù)據(jù)個數(shù)較少時,眾數(shù)就是出現(xiàn)次數(shù)最多的個數(shù)據(jù)。7) 百分位數(shù)百分位數(shù)(percentile)以表示,它將總體或樣本的全部觀察值分成兩個部分,其中有個觀察值小于,(100)%個觀察值大于。如百分之25分位數(shù)或稱第25百分位數(shù),表示有25%個觀察值小于;75%個觀察值大于。中位數(shù)就是百分之50分位數(shù)。2 離散程度的指標1) 全距全距(range)也稱極差是一種離散指標,是最大與最小觀察值之差。用極差反映總體分布的離散程度雖然簡便,但它只從兩端數(shù)值考察,忽略了中間數(shù)據(jù)的變動情況,不能說明整體的差異程度,尤其是存在極端值情況下,使用極差往往會造成錯誤的結(jié)論。2) 標準差與方差標準差(standard deviation)與方差(variance)是一種常用的離散指標,結(jié)合均值能給出正態(tài)分布的特征。標準差的平方為方差,標準差(或方差)越大,表示觀察值的分布越分散;反之,標準差(或方差)越小,表示觀察值的分布越集中。如果標準差為0,表示這組觀察值都為一個相同的值。實際應用時常以均值標準差的寫法綜合觀察值的集中和離散特征??傮w的標準差和方差分別以和表示,樣本的標準差和方差分別以和表示,當用樣本標準差作為的估計值時,有:(24.7)其中為樣本含量,稱為離均差平方和,也可以如下計算:(24.8)如用頻數(shù)表資料,有:(24.8)3) 變異系數(shù)變異系數(shù)(coefficient of variantion)是一種離散指標,簡記為,它是標準差與均值之比,用百分數(shù)表示:(24.9)由于無量度單位,而且消除了原始資料的平均水平的影響,因此常用于比較量度單位不相同的指標或者平均水平相差懸殊的指標的變異程度。4) 標準誤差標準誤差(standard error)是統(tǒng)計量的標準差。因為統(tǒng)計量是樣本觀察值的函數(shù),一旦樣本改變,統(tǒng)計量的取值也會隨之改變。為了避免與樣本觀察值的標準差相混淆,在統(tǒng)計學上,把反映一群性質(zhì)相同的統(tǒng)計量離散程度大小的量稱為標準誤差。從理論上來說,只要給出了一個統(tǒng)計量,就有其相應的標準誤差。在參數(shù)估計中,用樣本的統(tǒng)計量去估計參數(shù)時,統(tǒng)計量的標準誤差越小,表示抽樣誤差小,統(tǒng)計量較穩(wěn)定,與參數(shù)較接近。用、分別表示統(tǒng)計量(樣本均值)、(樣本率)、(樣本相關系數(shù))、(變異系數(shù))的標準誤差,它們的計算公式分別為:(24.10)(24.11)(24.12)(24.13)5) 四分位數(shù)間距四分位數(shù)間距(interquartile range)是一種離散指標,它是第3個四分位數(shù)與第1個四分位數(shù)之差,即。6) 偏度系數(shù)偏度系數(shù)(skewness)返回分布的偏斜度,簡記為SKEW。偏斜度反映以平均值為中心的分布的不對稱程度。正偏斜度表示不對稱部分的分布更趨向正值。負偏斜度表示不對稱部分的分布更趨向負值。偏斜度的計算公式為樣本觀察值消除量綱影響的三階中心矩,然后按樣本數(shù)進行無偏修正,定義如下:(24.14)式中為樣本的標準差。7) 峰度系數(shù)峰度系數(shù)(kurtosis)返回數(shù)據(jù)集的峰值,簡記為KURT。峰值反映與正態(tài)分布相比某一分布的尖銳度或平坦度。正峰值表示相對尖銳的分布。負峰值表示相對平坦的分布。峰值的計算為樣本觀察值消除量綱影響的四階中心矩減去3(因為標準正態(tài)分布的四階原點矩為3),然后按樣本數(shù)進行無偏修正,公式如下:(24.15)式中為樣本的標準差。二. 正態(tài)性檢驗用于判斷總體分布是否為正態(tài)分布的檢驗稱為正態(tài)性檢驗。檢驗資料是否服從正態(tài)分布的主要方法有:WilkShapiro(威爾克斯-夏皮羅)的檢驗和Dagustino的檢驗。原假設為總體服從正態(tài)分布。1 小樣本的檢驗在觀察值為小樣本時,Wilk與Shapiro提出用如下的統(tǒng)計量:(24.16)它可以看成是數(shù)對()相關系數(shù)的平方,所以的取值在0和1之間。系數(shù)按標準正態(tài)分布構(gòu)造,均值為0,標準差為1,且是對稱值。不同的樣本數(shù)有不同的系列值。可以證明,在原假設為真時,的取值應接近于1。2 大樣本的檢驗在觀察值為大樣本時,Dagustino建議用以下的統(tǒng)計量:(24.17)在原假設為真時,統(tǒng)計量的標準化后漸近分布為標準正態(tài)分布。三. 總體均值的估計和檢驗1 總體均值的估計總體均值用表示,總體均值的估計包括點估計和區(qū)間估計。點估計即用樣本均值來估計總體均值:。點估計雖然簡單,但未考慮抽樣誤差。區(qū)間估計即按一定的概率估計總體均值在哪個范圍內(nèi),這個范圍稱為置信區(qū)間,這個概率稱為可信度或置信度,用表示,常取95%()或99%(),按此確定的可信區(qū)間分別稱之為95%或99%可信區(qū)間??傮w均值的區(qū)間估計因研究的問題和已知條件不同而用不同的方法。主要分成三種情況:1) 正態(tài)總體方差已知如果總體服從正態(tài)分布且總體的方差已知,于是樣本的均值分布為:(24.18)對變量作標準化處理,得當統(tǒng)計量(24.19)稱為檢驗。則總體均值的可信區(qū)間為:(24.20)是抽樣誤差,為一定倍數(shù)的抽樣誤差,稱為極限誤差,或誤差范圍。其意義是在給定的置信度的條件下對總體參數(shù)進行區(qū)間估計所允許的最大誤差。2) 正態(tài)總體方差未知實際上,總體均值未知而總體方差已知的情況是不常有的,通常的情況是和都未知。設總體服從正態(tài)分布且總體的方差未知。在這種情況下,可用樣本標準差來代替總體標準差,這樣就得到了統(tǒng)計量(24.21)稱為檢驗。則總體均值的可信區(qū)間為:(24.22)2 非正態(tài)總體在大多數(shù)實際問題中,不能假定總體服從或近似服從正態(tài)分布。但是,根據(jù)中心極限定理,只要樣本容量足夠大,樣本均值的抽樣分布就近似為正態(tài)分布。若方差已知(通常根據(jù)歷史資料或經(jīng)驗得到),則可用公式3.1.20來計算總體均值的可信區(qū)間。若未知,則用樣本標準差來代替總體標準差,總體均值的可信區(qū)間為:(24.23)3 配對檢驗配對檢驗(paried test)用于配對試驗設計(paired design),它是按一些非試驗因素條件將受試對象配對對子,給予每對中的個體以不同的處理。配對的條件一般為年齡、性別、體重等等。其優(yōu)點是在同一對的試驗對象間取得均衡,從而提高試驗效率。有些試驗中就同一受試對象作比較稱為自身對照,例如觀察某指標不同時間的變化,或試驗前后的變化,也屬于配對試驗。想要比較配對試驗中兩種處理(和)的效果,或者自身對照中比較試驗前后某指標(和)的變化??梢韵惹蟪龀蓪?shù)據(jù)之差。在這種試驗設計的情況下,可以認為均值總體服從正態(tài)分布且總體的方差未知。用樣本標準差代替總體標準差,然后使用檢驗,檢驗是否來自均值為0()的總體。因此,配對檢驗公式為:(24.21)4 成組檢驗當按完全隨機化設計的兩個樣本均值比較時,可用成組檢驗(grouped test),比較的目的是檢驗它們各種所代表的總體是否具有相同的均值,其假設檢驗,。設總體,如果和都已知,則(24.22)經(jīng)標準化變換(24.23)如果和都未知,但方差相等,其中未知需要估計。由于和都是的無偏估計,集中了各自樣本中有關的信息,故可以使用合并方差估計法(Pooled Variance Estimate),有(24.24)然后用樣本合并標準差來代替中的總體標準差,這樣就得到了統(tǒng)計量(24.25)如果和都未知的一般場合,即。當和分別使用各自方差估計法(Separate Variance Estimate),即分別使用其相合估計和代替后,有(24.26)這時就不再服從分布了,其形式很象統(tǒng)計量。近似統(tǒng)計量概率水平的Cochran和Cox近似(1950)是如下統(tǒng)計量的值:(24.27)用上面修正后的統(tǒng)計量作出合適的統(tǒng)計推斷。一般地,Cochran和Cox檢驗趨于保守。另外Satterthwaite(1864)就設法用統(tǒng)計量去擬合,結(jié)果發(fā)現(xiàn)若取(24.28)但的計算結(jié)果為非整數(shù)時取最接近的整數(shù),則近似服從自由度為的分布。當樣本數(shù)和較大時,式中的值也將隨之而增大,我們知道,當時,自由度為的分布就很接近于正態(tài)分布,故在和較大時,我們將認為統(tǒng)計量服從分布。5 兩組方差的齊性檢驗兩個均值比較的檢驗,其前提是兩個樣本所代表的正態(tài)總體具有相同的方差,因此在作檢驗前,應該作兩個方差是否齊性(一致)的檢驗,稱為方差的齊性檢驗(test for homogeneity of variance)。設從正態(tài)總體中獲得的個樣本均值為,樣本無偏方差為,從另一正態(tài)總體中獲得的個樣本均值為,樣本無偏方差為,且兩個樣本獨立。假定和未知?,F(xiàn)在要檢驗的原假設是,備擇假設是。由于(24.29)(24.30)構(gòu)造統(tǒng)計量(24.31)如果原假設是為真的情況下(24.32)對于給定顯著水平,檢驗統(tǒng)計量的拒絕原假設的區(qū)域為或。實際計算值時常用:較大的樣本方差/較小的樣本方差,所以拒絕區(qū)域只要看。不拒絕時,認為兩組方差齊性(homoscedasticity),這時檢驗的前提條件滿足,所以計算的值及統(tǒng)計推斷可靠;拒絕時,認為兩個總體方差不齊(heteroscedasticity)這時不能直接作檢驗,應該采取適當?shù)拇胧H鐧z查試驗的本身,尋找原因查出可能的解釋;或作變量置換;或用非參數(shù)統(tǒng)計分析方法;或用檢驗。當涉及到個正態(tài)總體的方差相齊性檢驗,分成兩種情況:樣本容量相等和樣本容量不等。樣本容量相等,假設為,常用的有兩種檢驗方法:最大檢驗(Hartley(哈特利)檢驗)和最大方差檢驗(Cochran(卡克倫)檢驗)。最大檢驗用的統(tǒng)計量為(24.32)最大方差檢驗用的統(tǒng)計量為(24.33)在樣本容量不相等的情況下,可以采用Bartlett檢驗。它是從廣義似然比導出。四. 簡單的描述性統(tǒng)計proc means過程SAS系統(tǒng)的BASE軟件提供了一些計算基礎統(tǒng)計量的過程,如:means過程、summary過程、univariate過程、corr過程、freq過程和tabulate過程。這些過程可完成單變量或多變量的描述統(tǒng)計量計算。SAS的means過程用來對數(shù)據(jù)集中的數(shù)值變量計算簡單的描述統(tǒng)計量。1 Means過程的語句格式Means過程的主要控制語句如下:proc means 輸入數(shù)據(jù)集名 ;var 變量列表 ;class 變量列表 ;by 變量列表 ;freq 變量 ;weight 變量 ;id 變量列表 ; output ;run ;2 proc means 語句中的。l vardef=df/weight/wgt/n/wdf在方差計算中規(guī)定除數(shù)d.。1) 例 vardef=df 則d=n1 缺省值2) vardef=n 則d=n3) vardef=weight/wgt 則d=4) vardef=wdf 則d=1l noprint不輸出任何描述統(tǒng)計量,僅為了創(chuàng)建新的數(shù)據(jù)集。l maxdec=數(shù)字輸出結(jié)果中小數(shù)部分的最大位數(shù)(0至8),缺省值為2。l fw=數(shù)字規(guī)定打印時每個統(tǒng)計量的域?qū)挘笔≈禐?。l descending規(guī)定輸出數(shù)據(jù)集按_type_值下降的次序(缺省時為上升)。l order=freq/data/internal/formatted/規(guī)定輸出時class變量按所指定方式排序。l alpha=數(shù)字設置計算置信區(qū)間的置信水平,值在0與1之間。l 統(tǒng)計量可使用的關鍵字見表24.1所示:表24.1 proc means語句中可用的統(tǒng)計量關鍵字統(tǒng)計量名稱含義統(tǒng)計量名稱含義n未丟失的觀測個數(shù)mode眾數(shù),出現(xiàn)頻數(shù)最高的數(shù)nmiss丟失的觀測個數(shù)sumwgt權(quán)數(shù)和mean算術(shù)平均max最大值stderr均值的標準誤差min最小值sum加權(quán)和range極差,maxminstd標準偏差median中間值var方差t總體均值等于0的t統(tǒng)計量cv變異系數(shù)的百分數(shù)prtt分布的雙尾p值uss加權(quán)平方和clm置信度上限和下限css關于均值偏差的加權(quán)平方和lclm置信度下限skewness對稱性的度量偏度uclm置信度上限kurtosis對尾部陡平的度量峰度3 output語句中的選項。l 輸出數(shù)據(jù)集名。l 統(tǒng)計量關鍵字=變量名列表規(guī)定在輸出數(shù)據(jù)集中要包含的統(tǒng)計量并規(guī)定這些統(tǒng)計量在新數(shù)據(jù)集中的變量名。means過程對output語句的次數(shù)沒有限制,可以使用幾個output語句來創(chuàng)建內(nèi)容不同的多個數(shù)據(jù)集。4 其他語句l var語句規(guī)定要求計算簡單描述性統(tǒng)計量的數(shù)值變量的次序。l by語句按by語句定義的變量進行分組計算其相應的簡單統(tǒng)計量,要求輸入數(shù)據(jù)集已按by變量排序。l class語句與by語句一樣,可用class變量定義觀測組,分別計算各組觀測的描述統(tǒng)計量。輸出格式與by不同且事先不需要按class變量排序。l freq語句指定一個數(shù)值型的freq變量,它的值表示輸入數(shù)據(jù)集中相應觀測出現(xiàn)的頻數(shù)。l weight語句規(guī)定一個weight變量,它的值表示相應觀測的權(quán)數(shù)。l id語句在輸出數(shù)據(jù)集中增加一個或幾個附加變量,目的在于識別輸出數(shù)據(jù)集里的觀測。其值為生成這個觀測的輸入數(shù)據(jù)集中相應觀測組里id變量具有的最大值。五. 實例分析1 用output語句創(chuàng)建一個新的數(shù)據(jù)集例24.1 我們對原數(shù)據(jù)集survey,用means過程的output語句創(chuàng)建一個新的數(shù)據(jù)集meansout,程序如下:proc means data=study.survey;class sex ;var age income;output out=meansout mean=mage mincome sum=total range= ;run ;proc print data=meansout ;run;運行的主要結(jié)果見下表24.2所示:表24.2 用proc means過程的output語句創(chuàng)建一個新的數(shù)據(jù)集The SAS System OBS SEX _TYPE_ _FREQ_ MAGE MINCOME TOTAL AGE INCOME 1 0 5 24.6 43229.94 123 32 76768.76 2 F 1 2 18.0 43430.21 36 2 14139.69 3 M 1 3 29.0 43096.43 87 31 76768.762 簡單算術(shù)平均和加權(quán)平均例24.2 某車間20名工人加工某種零件,按生產(chǎn)數(shù)量X分組,每組工人數(shù)為W,求20名工人的平均日產(chǎn)量。其數(shù)據(jù)見表3.3所示。程序如下:表24.3 將工人按生產(chǎn)數(shù)量分組按日生產(chǎn)數(shù)量分組 X工人人數(shù) W142154168175181合計20data study.aaa01 ;input x w ;cards;14 2 15 4 16 8 17 5 18 1run;proc means data=study.aaa01 mean;var x;run;proc means data=study.aaa01 mean;var x;weight w;run;顯然,直接對X求簡單平均值(=16)和用W權(quán)值求出的X加權(quán)平均值(=15.95)是不一樣的。在這里正確的是加權(quán)平均值。3 分類和分組的算術(shù)平均例24.3 對三個班class各隨機抽取5名學生,記錄他們的性別sex,年齡age,體重weight,身高height。按班級和性別分組計算平均值。程序如下:data study.aaa02 ;input class $ sex $ age weight height ;cards;A F 15 46 156 A F 14 41 149A M 15 50 160 A M 13 48 155A M 14 38 150 B M 16 55 165B M 16 60 170 B F 17 50 160B F 16 60 165 B M 17 65 175C F 18 65 165 C F 17 58 160C M 18 70 180 C F 18 61 162C M 17 68 176;run;proc print data=study.aaa02;run;proc means data=study.aaa02 ;var age weight height;run;proc means data=study.aaa02 ;var weight height;by class;class sex;output out=study.newaaa02 mean=meanw meanh ;run;proc print data=study.newaaa02;title Newaaa02;run;提交后,主要的運行結(jié)果見表24.4所示:表24.4 在 proc means中使用by和class語句計算分類和分組平均Newaaa02OBS CLASS SEX _TYPE_ _FREQ_ MEANW MEANH1 A 0 5 44.6000 154.0002 A F 1 2 43.5000 152.5003 A M 1 3 45.3333 155.0004 B 0 5 58.0000 167.0005 B F 1 2 55.0000 162.5006 B M 1 3 60.0000 170.0007 C 0 5 64.4000 168.6008 C F 1 3 61.3333 162.3339 C M 1 2 69.0000 178.0004 計算T值和P概率值例24.4 我們從學生總體中抽樣出9名學生的體重,計算超出標準體重的數(shù)值。利用這組數(shù)據(jù)來檢驗學生總體中標準體重的假設。通過means過程計算的T統(tǒng)計量和P值,是根據(jù)原假設均值為0,即H0:=0來計算的。用戶可以在計算前設定顯著性水平的值,默認的值為0.05。means過程將計算出大于這組T統(tǒng)計量的概率值。程序如下:data x ;input x ;cards;-7 -2 1 3 6 10 15 21 30;proc means data=x n mean var std stderr t prt ;run;程序運行的主要結(jié)果見下表24.5所示:表24.5 計算T值和P概率值The SAS SystemAnalysis Variable : XN Mean Variance Std Dev Std Error T Prob|T|-9 8.5555556 138.2777778 11.7591572 3.9197191 2.1826961 0.0606-從計算結(jié)果可見,T值為2.182.30(臨界值),故在5%的顯著水平上接受假設H0。如果選擇顯著性水平為10%,這時T分布的臨界值為1.86,1.860.05的值,故接受H0的假設;若取=0.1,因0.0606|T|-0.3372727 0.3170778 1.0636907 0.3125-輸出結(jié)果分析:T=1.0636907,P=0.31250.5,不能拒絕原假設u=0,接受原假設,即用該法測定所得的總體均值與真值之間的差別無顯著性。六. 詳細的描述性統(tǒng)計proc univariate過程SAS的univariate過程主要用于對指定隨機變量進行詳細的描述性統(tǒng)計。該過程除了可以完成means過程的基本統(tǒng)計量的計算外,它還可以生成統(tǒng)計圖和計算其他的一些統(tǒng)計量。兩者的用法基本類似,主要區(qū)別在于means允許使用class語句,而univariate過程可繪制莖葉圖、盒型圖和計算各種百分位值。1 單變量統(tǒng)計分析對一組單指標實驗數(shù)據(jù)進行分析常采用兩種方法:l 圖示法包括莖葉圖、盒型圖和正態(tài)概率圖。l 描述統(tǒng)計量包括矩、分位數(shù)、極端值和頻數(shù)分布表。2 莖葉圖(Stem-and-leaf display)莖葉圖是探索性數(shù)據(jù)分析中對數(shù)據(jù)的初步形象描述,有點像直方圖,但主要的差異在于莖葉圖是用數(shù)據(jù)代替直方圖中的矩形,這樣既有了直觀的圖示,又有了對具體數(shù)據(jù)的大致了解。每一個數(shù)據(jù)分解為三個部分:l 莖l 葉l 可忽略部分3 盒型圖(Boxplot)我們對數(shù)據(jù)組分布的粗略描述,常采用“五數(shù)概括”(five number summaries),即數(shù)據(jù)組中的最小數(shù)、下四分位數(shù)、中位數(shù)、上四分位數(shù)與最大數(shù)。但五數(shù)概括沒有象直方圖、莖葉圖那樣給人以直觀的感覺。與五數(shù)概括聯(lián)系在一起的圖像是盒型圖,它與莖葉圖一樣常用于探索性數(shù)據(jù)分析。盒型圖的主要特點如下:l 矩形描述了居中的50%數(shù)據(jù)l 上下兩線段(觸須線)代表上下各25%的數(shù)據(jù)的分布狀況l 矩形盒較短表明數(shù)據(jù)比較集中l(wèi) 兩端的觸須線對稱或長短不一反映數(shù)據(jù)的分布特性4 Univariate過程的語句格式Univariate過程的主要控制語句如下:proc univariate 輸入數(shù)據(jù)集名 ;var 變量列表 ;by 變量列表 ;freq 變量 ;weight 變量 ;id 變量列表 ;output ;run;1) proc univariate 語句中的。l vardef=df/weight/wgt/n/wdf在方差計算中規(guī)定除數(shù)d.。同上面的proc univariate 語句中的選項vardef意義相同。l freq要求生成包括變量值、頻數(shù)、百分數(shù)和累計頻數(shù)的頻率表。l normal要求計算關于輸入數(shù)據(jù)服從正態(tài)分布的假設的檢驗統(tǒng)計量。l plot要求生成一個莖葉圖、一個盒型圖和一個正態(tài)概率圖。l round=舍入單位列表規(guī)定var語句中變量的四舍五入的單位。l pctldef=1/2/3/4/5規(guī)定計算百分位的五種方法, 缺省值為5。2) output語句中的選項。l 提供用戶自己想計算的百分位數(shù)和規(guī)定在輸出數(shù)據(jù)集中合成的變量名。l 統(tǒng)計量關鍵字=變量名 列表規(guī)定在輸出數(shù)據(jù)集中要包含的統(tǒng)計量并規(guī)定這些統(tǒng)計量在新數(shù)據(jù)集中的變量名。在這里可以使用的統(tǒng)計量的關鍵字名稱見下表24.7:表24.7 univeriate過程中的統(tǒng)計量關鍵字統(tǒng)計量名稱含義統(tǒng)計量名稱含義n未丟失的觀測個數(shù)mode眾數(shù),出現(xiàn)頻數(shù)最高的數(shù)nmiss丟失的觀測個數(shù)t總體均值等于0的t統(tǒng)計量nobs觀測個數(shù)prtt分布的雙尾p值mean算術(shù)平均q3上四分位數(shù)(75%)stderr均值的標準誤差q1下四分位數(shù)(75%)sum加權(quán)和qrange上下四分位數(shù)差(q3-q1)std標準偏差p11%分位數(shù)var方差p55%分位數(shù)cv變異系數(shù)的百分數(shù)p1010%分位數(shù)uss加權(quán)平方和p9090%分位數(shù)css關于均值偏差的加權(quán)平方和p9595%分位數(shù)skewness對稱性的度量偏度p9999%分位數(shù)kurtosis對尾部陡平的度量峰度msign符號統(tǒng)計量sumwgt權(quán)數(shù)和probm大于符號秩統(tǒng)計量的絕對值概率max最大值signrank符號秩統(tǒng)計量min最小值probs大于中心符號秩統(tǒng)計量的絕對值prange極差,maxminnormal檢驗正態(tài)性的統(tǒng)計量median中間值probn檢驗正態(tài)分布假設的概率值3) 其他語句。l var語句規(guī)定要求計算簡單描述性統(tǒng)計量的數(shù)值變量的次序。l by語句按by語句定義的變量進行分組計算其相應的簡單統(tǒng)計量,要求輸入數(shù)據(jù)集已按by變量排序。l freq語句指定一個數(shù)值型的freq變量,它的值表示輸入數(shù)據(jù)集中相應觀測出現(xiàn)的頻數(shù)。l weight語句規(guī)定一個weight變量,它的值表示相應觀測的權(quán)數(shù)。l id語句在輸出數(shù)據(jù)集中增加一個或幾個附加變量,目的在于識別輸出數(shù)據(jù)集里的觀測。其值為生成這個觀測的輸入數(shù)據(jù)集中相應觀測組里id變量具有的最大值。七. 實例分析_單變量數(shù)據(jù)的詳細描述統(tǒng)計量例24.6 有68個抽樣數(shù)據(jù),現(xiàn)要求計算此單變量數(shù)據(jù)的描述統(tǒng)計量,并分析此抽樣數(shù)據(jù)的統(tǒng)計特征。程序如下:data study.aaa03;input x ;cards;6.5 5.1 6.1 3.9 3.5 7.7 2.11.9 9.6 7.9 7.6 7.8 4.6 6.16.4 2.8 7.6 2.5 4.6 8.1 4.86.9 5.1 2.0 6.4 6.0 4.5 8.08.0 8.6 6.4 4.9 6.4 6.8 4.73.4 7.7 1.2 2.8 0.5 2.6 3.26.5 7.6 3.5 5.7 5.4 2.3 7.42.7 4.2 6.4 6.9 7.2 6.7 6.54.0 7.3 1.1 4.9 2.5 2.9 1.93.6 1.4 2.5 4.4 2.5;proc univariate data=study.aaa03 plot normal;var x;run;程序說明:data步產(chǎn)生一個單變量的數(shù)據(jù)集aaa03,共有68條觀測。univariate過程步中各選項的含義是:plot要求繪制莖葉圖、盒型圖和正態(tài)概率圖;normal要求對抽樣數(shù)據(jù)進行正態(tài)性檢驗。程序提交后,輸出分別見表24.8(a)(b)(c)所示。運行結(jié)果分析如下面所述。1 Moments:矩或稱動差。見表3.8(a)所示,輸入數(shù)據(jù)集68條觀測(n)中的變量x的算術(shù)平均值(mean)為5.019118,總和(sum)為341.3,方差(variance)為5.012017,標準差(std dev)為2.238753,均值的標準誤差(std mean)為0.271489,變異系數(shù)(cv)為44.60452%。由于沒有指定權(quán)數(shù)變量,每一條觀測x變量的權(quán)數(shù)默認值為1,所以權(quán)數(shù)和(sum wgts)為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論