




免費(fèi)預(yù)覽已結(jié)束,剩余31頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
MiniTab 學(xué)習(xí)筆記一、 基本統(tǒng)計(jì)量1. 顯示描述性統(tǒng)計(jì)1) 用途A 使用中心值匯總數(shù)據(jù)案例:一家汽車修理公司的客戶抱怨該公司的服務(wù)時(shí)間比承諾的時(shí)間長。該修理公司決定分析前幾個(gè)月的實(shí)際修理時(shí)間以便為客戶提供更準(zhǔn)確的服務(wù)時(shí)間。確定中心值(如均值或中位數(shù))是了解數(shù)據(jù)的首要關(guān)鍵步驟。B 評(píng)估變異程度案例:一家零食公司希望評(píng)估新的填充機(jī)器的性能。盡管平均狀態(tài)下此機(jī)器看上去以正確的重量填充薯片,但此機(jī)器性能也存在很大的差異。許多薯片袋會(huì)出現(xiàn)填充不足或填充過多的情況。了解數(shù)據(jù)的變化程度對(duì)應(yīng)了解產(chǎn)品或服務(wù)是非常重要的。不僅如此,理解變異性測(cè)量指標(biāo)同時(shí)也會(huì)影響對(duì)其他統(tǒng)計(jì)量的認(rèn)識(shí)。C 研究可能的組間差異案例:一個(gè)營銷團(tuán)隊(duì)對(duì)他們的電子簡(jiǎn)報(bào)進(jìn)行的讀者調(diào)查結(jié)果,以了解簡(jiǎn)報(bào)是否遞送給目標(biāo)受眾。該團(tuán)隊(duì)想知道被調(diào)查者的特定特征(性別、年齡和職業(yè))是否與希望更頻繁地閱讀此簡(jiǎn)報(bào)或?qū)Υ撕?jiǎn)報(bào)的評(píng)價(jià)更高有關(guān)。Minitab 可以為每組數(shù)據(jù)計(jì)算單獨(dú)的描述性統(tǒng)計(jì)量,以便我們更好地了解這些數(shù)據(jù)組治具的差異。2) 數(shù)據(jù)必須使用數(shù)字?jǐn)?shù)據(jù)。擁有的數(shù)據(jù)越多,結(jié)果所能提供的信息量就越大。 實(shí)例:一位熱心的年輕氣象學(xué)者收集了他家鄉(xiāng)一年內(nèi)的氣象數(shù)據(jù)。這些值顯示了每個(gè)月中具有明顯降雨的天數(shù)。JanFebMarAprMayJunJulAugSepOctNovDec降雨天數(shù)*231054433123使用Minitab 分析結(jié)果如下:結(jié)果解釋:a. 觀測(cè)值個(gè)數(shù):N-是非缺失值的數(shù)量,顯示的所有其他統(tǒng)計(jì)量都只基于非缺失值。 N*-是缺失值的數(shù)量。如果沒有缺失值,則不顯示此統(tǒng)計(jì)量。b. 均值:也稱為平均數(shù),是對(duì)分布中心所在位置的度量。只需用所有觀測(cè)值的和除以觀察值得個(gè)數(shù)。極端值會(huì)對(duì)均值產(chǎn)生極大的影響。c. 中位數(shù):也稱為第2個(gè)四分位數(shù)或第50個(gè)百分位數(shù),是數(shù)據(jù)集中的中點(diǎn),有一半觀測(cè)值位于其上,一半觀測(cè)值位于其下。他通過對(duì)數(shù)據(jù)排序并找出觀測(cè)值變化【N+1】/2來確定。如果有偶數(shù)個(gè)觀測(cè)值,中位數(shù)表示為觀測(cè)值編號(hào)N/2 和【N/2】+1之間的值。中位數(shù)不像均值那樣對(duì)極端值敏感。因此,當(dāng)數(shù)據(jù)包含異常值或偏斜時(shí),通常使用中位數(shù)而非均值。d. 標(biāo)準(zhǔn)差(StDEV):度量樣本中的觀測(cè)值偏離均值的程度。它類似于到均值的平均距離。與均值相似,標(biāo)準(zhǔn)差對(duì)極端值也很敏感。如果數(shù)據(jù)稱正態(tài)分布,則標(biāo)準(zhǔn)差和均值可用來確定觀測(cè)值處于給定值范圍內(nèi)的比例。e. 均值的標(biāo)準(zhǔn)差(SE Mean):標(biāo)準(zhǔn)差除以N。f. 下四分位數(shù)和上四分位數(shù)(Q1和Q3):Q1,也稱為第25個(gè)百分位數(shù)。它等于位置(N+1)/4的數(shù)據(jù)值。如果此位置號(hào)不是整數(shù),Minitab 將在該位置量測(cè)的兩個(gè)觀測(cè)值治具進(jìn)行推斷。Q3,也稱為第75個(gè)百分位數(shù)。它等于位置3(N+1)/4的數(shù)據(jù)值。如果此位置號(hào)不是整數(shù),Minitab將在該位置兩側(cè)的兩個(gè)觀測(cè)值之間進(jìn)行推斷。Q1和Q3通常用于四分位數(shù)極差(IQR),四分位數(shù)極差是用于描述離差的另一個(gè)統(tǒng)計(jì)量。IQR 是中間50%的值得極差,計(jì)算公式為Q3-Q1。相對(duì)而言,IQR 對(duì)極端值不敏感。(注:要先對(duì)數(shù)據(jù)進(jìn)行有小到大的排序)g. 標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤差的計(jì)算方法:1. 計(jì)算每個(gè)值與均值的偏差并求平方:數(shù)據(jù)平方數(shù)據(jù)-均值平方差*2 -1.6362.6783 -0.6360.40510 6.36440.4965 1.3641.8604 0.3640.1324 0.3640.1323 -0.6360.4053 -0.6360.4051 -2.6366.9502 -1.6362.6783 -0.6360.405 sum40 0.00056.5452. 對(duì)平方差求和。上述數(shù)據(jù)的平方差的和為56.545。3. 通過將平方差的和除以N-1 可以求得方差:方差=(平方差的和)/(N-1)=56.545/10=5.6554. 求方差的平方根,以計(jì)算標(biāo)準(zhǔn)差:標(biāo)準(zhǔn)差=方差的平方根=2.3785. 然后,用標(biāo)準(zhǔn)差除以N的平方根,已計(jì)算均值的標(biāo)準(zhǔn)誤差:均值的標(biāo)準(zhǔn)誤差=標(biāo)準(zhǔn)差/N的平方根=2.378/3.317=0.7172. 圖形化匯總1) 包含正態(tài)曲線的數(shù)據(jù)直方圖降雨量數(shù)據(jù)部服從正態(tài)曲線,這在很大程度上是因?yàn)閳D形右側(cè)很遠(yuǎn)處存在異常值。如果沒有此異常值,數(shù)據(jù)看上去更服從正態(tài)分布,如下圖所示:2) 箱線圖l 箱的下邊緣表示下四分位數(shù)Q1,而上邊緣表示上四分位數(shù)Q3。因此,圖形的箱部分表示四分位數(shù)極差I(lǐng)QR或觀測(cè)值的中間50%部分。l 通過該箱的線表示數(shù)據(jù)的中位數(shù)。l 從箱擴(kuò)展出去的直線稱為須。須向外擴(kuò)展,表示數(shù)據(jù)集中(不包含異常值)的最低值和最高值。l 極端值和異常值有點(diǎn)表示。如果某個(gè)值位于框之外的部分比IQR 的1.5倍還多,則將該值視為異常值(大于Q3或小于Q1)。使用箱線圖可以評(píng)估數(shù)據(jù)的對(duì)稱性:l 如果數(shù)據(jù)剛好對(duì)稱,中位線將大致位于IQR箱的中間,并且須的長度相近l 如果數(shù)據(jù)偏斜,中位線肯不在IQR框的中間,而且一條須可能顯著長于另一條。 在降雨量的箱線圖中,中位線位于IQR箱中心,須長度相同。這表明除了異常值之外,數(shù)據(jù)對(duì)稱。這恰好表明,異常值與樣本數(shù)據(jù)的其余值可能不是來自同一總體。3) 均值、標(biāo)準(zhǔn)差和中位數(shù)的置信區(qū)間3. 單樣本Poisson(泊松)率1) 用途A 將比率與目標(biāo)值進(jìn)行比較案例:一項(xiàng)分區(qū)規(guī)劃要求,如果某一個(gè)十字路口每小時(shí)超過300輛車,就必須設(shè)人行橫道。交通官員希望知道某個(gè)繁忙的十字路口的交通量是否超過300輛車。因?yàn)檫@些官員要測(cè)量時(shí)間的發(fā)生率,因此數(shù)據(jù)遵循Poisson 分布。處理Poisson 數(shù)據(jù)時(shí),可以使用單樣本Poisson 率檢驗(yàn)將發(fā)生率與給某個(gè)基準(zhǔn)值做比較。B 估計(jì)發(fā)生率案例:為了確定監(jiān)視器屏幕上的平均劃痕數(shù)是否滿足客戶的要求,一家計(jì)算機(jī)制造商需要估計(jì)此劃痕數(shù)。顯然,該制造商無法檢查每臺(tái)監(jiān)視器,因此檢查員需要計(jì)算樣本的劃痕數(shù)。在不測(cè)量每個(gè)可能的觀測(cè)值的情況下,將無法真正的紙檔真實(shí)的發(fā)生率。單樣本Poisson lv檢驗(yàn)可以采用置信區(qū)間(即可能會(huì)包含該發(fā)生率的值范圍)的形式提供具有實(shí)際意義的發(fā)生率估計(jì)值。2) 數(shù)據(jù)數(shù)據(jù)必須遵循Poisson 分布。也就是說,它們必須表示事件數(shù)、缺陷數(shù)或活動(dòng)數(shù)。此外,數(shù)據(jù)必須為非負(fù)數(shù)。 實(shí)例:一家城市公交公司要計(jì)算過去30天中的客戶投訴數(shù)量。該公司希望設(shè)定投訴率以確定新投訴部門的人員配備要求。投訴191822211718221916232516181820211523211926211726162421181721使用Minitab 分析結(jié)果如下:結(jié)果解釋:A單樣本Poisson 率過程將計(jì)算置信區(qū)間,并對(duì)單樣本Poisson 模型中的出現(xiàn)率進(jìn)行假設(shè)檢驗(yàn)。Poisson 過程描述某一事件在給定時(shí)間、面積、量或其他觀測(cè)值空間內(nèi)的出現(xiàn)次數(shù)。觀測(cè)值空間的尺寸成為觀測(cè)長度。B合計(jì)出現(xiàn)數(shù)事件在樣本中的出現(xiàn)次數(shù)N采集觀測(cè)值的次數(shù)C觀測(cè)值長度:顯示用戶定義的觀測(cè)值長度,該長度表示每個(gè)觀測(cè)值周期的維度。D出現(xiàn)率:是在觀測(cè)值得每個(gè)單位長度內(nèi),發(fā)生事件的平均次數(shù)。 出現(xiàn)率=(合計(jì)出現(xiàn)數(shù)/N)/(觀測(cè)值長度)。e 置信區(qū)間是可能包含總體的出現(xiàn)率的一系列值。4. 雙樣本Poisson 率1) 用途A 確定兩個(gè)組之間是否存在差異案例:一家紡織品制造商使用兩臺(tái)紡織機(jī)來生產(chǎn)最暢銷的織物。它希望確保這兩臺(tái)機(jī)器之間不存在質(zhì)量差異。因?yàn)榇酥圃焐陶跍y(cè)量瑕疵率(每10碼材料中的織物瑕疵數(shù)),所以,此數(shù)據(jù)遵循Poisson 分布。有時(shí),我們只需要知道存在有時(shí)間意義的差異即可。通過Poisson 數(shù)據(jù),我們可以使用雙樣本Poisson 率檢驗(yàn)比較兩個(gè)組的比率。B 確定一組中發(fā)生某個(gè)事件的比率是否比另一組高案例:兩位工藝控制工程師分別想出了按照電視玻璃屏幕時(shí)盡可能少地產(chǎn)生劃痕的方法。公司希望知道那種方法所產(chǎn)生的劃痕率更低。C 確定兩組的比率差異是否為某一特定量案例:一家印刷公司考慮提高其印刷機(jī)以減少缺陷印刷件的數(shù)量。但是,僅當(dāng)缺陷比率降低5%或更多時(shí)才值得對(duì)此設(shè)備升級(jí)投資。即使兩組之間存在比率差異,差異可能會(huì)因?yàn)樘《鴽]有任何時(shí)間意義。通過雙樣本Poisson 率檢驗(yàn),可以檢驗(yàn)認(rèn)為重要的任意大小之間的差異,并計(jì)算出可會(huì)包含組間差異的一系列值。2) 數(shù)據(jù)數(shù)據(jù)必須遵循Poisson 分布。也就是說,它們必須表示事件數(shù)、缺陷數(shù)或活動(dòng)數(shù)。此外,數(shù)據(jù)必須為非負(fù)數(shù)。 實(shí)例:郵政分析員要對(duì)兩個(gè)郵局分支機(jī)構(gòu)進(jìn)行比較,以確定哪個(gè)機(jī)構(gòu)的客戶每日到訪率更高。對(duì)40個(gè)工作日內(nèi)(上午9:00-下午5:00)進(jìn)入每個(gè)分支機(jī)構(gòu)的客戶數(shù)進(jìn)行統(tǒng)計(jì),并使用雙樣本Poisson率函數(shù)比較每個(gè)分支機(jī)構(gòu)的客戶到訪數(shù)。分局 A265249274245210231207251257249233273236257268266252259271279237226278249246217223250247268275241248255255258232243244259分局 B247257273269207258260262243264236253235236265244267247267274270267287277223257282269271274276264283224257236265247250248 使用Minitab 分析結(jié)果如下:結(jié)果解釋:A 雙樣本Poisson 率過程執(zhí)行假設(shè)檢驗(yàn),并計(jì)算兩個(gè)Poisson 模型的出現(xiàn)率之間差值的置信區(qū)間。Poisson 過程描述某一事件在給定時(shí)間、面積、量或其他觀測(cè)值空間內(nèi)的出現(xiàn)次數(shù)。觀測(cè)值空間尺寸成為觀測(cè)值長度。B 合計(jì)出現(xiàn)數(shù):事件在每個(gè)樣本中的出現(xiàn)次數(shù)C N:在每個(gè)樣本中采集觀測(cè)值的次數(shù)D 出現(xiàn)率是在觀測(cè)值的每個(gè)單位長度內(nèi),發(fā)生事件的平均次數(shù)。出現(xiàn)率=(合計(jì)出現(xiàn)數(shù)/N)/(觀測(cè)值長度)E 差值估計(jì)值是兩個(gè)樣本的出現(xiàn)率之間的差值。假設(shè)檢驗(yàn)作用于此統(tǒng)計(jì)量。F 假設(shè)檢驗(yàn)。Minitab 既執(zhí)行精確檢驗(yàn),也執(zhí)行基于正態(tài)近似的檢驗(yàn),當(dāng)合計(jì)出現(xiàn)次數(shù)很低時(shí),后面一種檢驗(yàn)可能會(huì)不夠精確。在此示例中,假設(shè)檢驗(yàn)使用以下假設(shè):H0:兩個(gè)總體具有相同的比率H1:兩個(gè)總體具有不同的比率精確檢驗(yàn)和正態(tài)近似檢驗(yàn)的P值為0.031。因此,應(yīng)否定原假設(shè),并推斷出兩個(gè)樣本來自Poisson出現(xiàn)率不同的總體。換言之,可以斷定兩個(gè)分支的每日客戶數(shù)量是不同的。G置信區(qū)間是可能包含兩個(gè)總體出現(xiàn)率之間差值的實(shí)際值的一系列值。對(duì)于此示例,兩個(gè)出現(xiàn)率值差值的實(shí)際值介于-14.4768 與-0.723175之間的置信度為95%。在于假設(shè)檢驗(yàn)結(jié)合使用時(shí),該置信區(qū)間也很有用。該檢驗(yàn)否定了原假設(shè),并且檢定的結(jié)論是優(yōu)先使用雙側(cè)備擇檢驗(yàn),其中兩個(gè)分支的客戶到訪率不同。但是,仍不能精確確定哪個(gè)比率更高。可通過分析置信區(qū)間來回答此問題。由于分支A-分支B的置信區(qū)間值包含負(fù)數(shù),因此,應(yīng)推斷出分支B的每日客戶到訪率更高。5. 單樣本t檢定1) 用途A 將過程均值與目標(biāo)值進(jìn)行比較案例:一家木材廠將部分板材標(biāo)記為8英尺長。該廠需要確保它所切割的板材實(shí)際均為8英尺長,否則客戶可能會(huì)對(duì)此有意見,而且甚至可能會(huì)違反標(biāo)記標(biāo)準(zhǔn)??梢允褂脝螛颖総檢驗(yàn)將均值與基準(zhǔn)值做比較。B 估計(jì)過程平均數(shù)的值案例:一家制藥公司研發(fā)出一種新型速效止痛藥。該公司希望估計(jì)此藥品的平均藥效時(shí)間以便在其標(biāo)簽上注明此藥的生效速度。在不測(cè)量每個(gè)可能的觀測(cè)值得情況下,將無法真正知道數(shù)據(jù)的真實(shí)均值。單樣本t 檢定可以采用置信區(qū)間(即可能會(huì)包含該均值的值范圍)的形式提供具有實(shí)際意義的平均估計(jì)值。2) 數(shù)據(jù)測(cè)量數(shù)據(jù)必須為連續(xù)的數(shù)值型數(shù)據(jù)。這些數(shù)據(jù)應(yīng)遵循正態(tài)分布,并且應(yīng)為隨機(jī)收集的獨(dú)立數(shù)據(jù)。 實(shí)例:對(duì)隨機(jī)選擇的15個(gè)美國高收入家庭的能量消費(fèi)進(jìn)行了度量,以確定平均消費(fèi)是否不同于發(fā)布值$1080。能源 $12111572166812501478130711848651162130811881111174713261142 使用Minitab 分析結(jié)果如下:結(jié)果解釋:A 假設(shè):使用單樣本t過程時(shí),實(shí)際上是在根據(jù)樣本數(shù)據(jù)決定哪兩個(gè)相反的假設(shè)看起來成立:H0(原假設(shè)): 等于參考值H1(備擇假設(shè)): 不等于參考值。(默認(rèn)情況下,H1是非定向假設(shè),但是可以指向定向假設(shè))B. 置信區(qū)間是 的一系列可能值。由于我們不知道的實(shí)際值,因此可以根據(jù)樣本數(shù)據(jù)通過置信區(qū)間來猜測(cè)實(shí)際值。樣本均值提供的估計(jì)值,并且使用樣本標(biāo)準(zhǔn)差(StDev)來確定估計(jì)值的遠(yuǎn)離程度。C. 檢驗(yàn):t檢驗(yàn)提供兩個(gè)統(tǒng)計(jì)量,可以用來執(zhí)行均值檢驗(yàn):t值和p值。t值本身并不能提供什么信息,但可以用來計(jì)算p值。P值可以指示當(dāng)原假設(shè)(H0)成立時(shí)以特定均值和標(biāo)準(zhǔn)差獲得樣本的可能性。必須在進(jìn)行檢驗(yàn)前確定否定H0 所需的p值。選擇作為標(biāo)準(zhǔn)的值稱為a 水平。如果p值小于或等于a 水平,則否定H0并推斷出 不等于參考值。常用的a水平為0.05。6. 雙樣本t檢定1) 用途A 確定兩個(gè)組是否存在差異案例:普通塑料垃圾袋的生產(chǎn)商希望顯示其產(chǎn)品的平均壽命與價(jià)格較高的競(jìng)爭(zhēng)對(duì)手的名牌產(chǎn)品壽命一樣。有時(shí),只需知道存在有實(shí)際意義的差異即可。B 確定一個(gè)組是否優(yōu)于另一個(gè)組案例:一個(gè)家具制造商希望找到更快捷的方式組裝一種復(fù)雜的椅子。該制造商需要證據(jù)表明新方法比當(dāng)前的方法更快捷。C 確定兩個(gè)組之間的差異是否為某一特定量案例:一家進(jìn)行大型混凝土澆灌的公司要調(diào)查一種聲稱可以減少養(yǎng)護(hù)時(shí)間的價(jià)格高昂的新化學(xué)品。此公司需要確信該化學(xué)品可以將養(yǎng)護(hù)時(shí)間減少至少五個(gè)小時(shí);否則,它將不值這么多錢。即使兩組之間存在均值差異,差異可能會(huì)因太小而沒有任何實(shí)際意義。2) 數(shù)據(jù)必須有兩個(gè)包含連續(xù)數(shù)據(jù)的數(shù)據(jù)組。樣本必須是針對(duì)不同對(duì)象測(cè)量的獨(dú)立樣本。如果具有兩個(gè)以上的組,請(qǐng)使用方差分析過程。 實(shí)例:一家醫(yī)療衛(wèi)生管理公司具有兩家醫(yī)院以前的患者的滿意度樣本。該公司希望知道患者對(duì)其中一家醫(yī)院的滿意度是否比另一家醫(yī)院高。該公司將使用此信息箱患者提供參考并為醫(yī)院提出改進(jìn)建議。這兩個(gè)樣本的方差非常接近,因此該公司將對(duì)檢驗(yàn)使用綜合標(biāo)準(zhǔn)差。 A81777574869062739198B896435686955375742495958657167比率81777574869062739198醫(yī)院AAAAAAAAAA比率896435686955375742495958657167醫(yī)院BBBBBBBBBBBBBBB 使用Minitab 分析結(jié)果如下:結(jié)果解釋:A. 雙樣本t 置信區(qū)間和檢驗(yàn)過程用于兩個(gè)獨(dú)立、隨機(jī)樣本中的數(shù)據(jù)推斷兩個(gè)總體均值(A和B)治具的差值。要使用雙樣本t過程,樣本數(shù)據(jù)應(yīng)服從正態(tài)分布。如果樣本數(shù)據(jù)不是正態(tài)分布,則應(yīng)考慮使用合適的非參數(shù)過程。而且,樣本必須是獨(dú)立的。如果樣本相關(guān)或配對(duì),則改用成對(duì)的t檢驗(yàn)過程即可。B. 假設(shè):使用雙樣本t過程時(shí),時(shí)間是在根據(jù)樣本數(shù)據(jù)決定哪兩個(gè)相反的假設(shè)看起來成立:H0(原假設(shè)):差值A(chǔ)-B 等于選擇的參考值(通常為零)H1(備擇假設(shè)):A-B 不等于所選的參考值。C. 置信區(qū)間是差值A(chǔ)-B的一系列可能值。由于不知道此差值的實(shí)際值,因此可以根據(jù)樣本數(shù)據(jù)通過置信區(qū)間來猜測(cè)實(shí)際值。樣本均值之差提供A-B的估計(jì)值,并且使用樣本標(biāo)準(zhǔn)差(StDev)來確定估計(jì)值的遠(yuǎn)離程度。D. t 檢驗(yàn)提供兩個(gè)統(tǒng)計(jì)量,可以用來對(duì)均值之差進(jìn)行檢驗(yàn):t 值和p 值。t 值本身并不能提供什么信息,單可以用來確定p 值。p 值可以指示當(dāng)H0 成立時(shí)獲得樣本的可能性。必須在進(jìn)行檢驗(yàn)之前確定否定H0所需要的p 值。選擇作為標(biāo)準(zhǔn)的值成為a 水平。如果p 值小于或等于a 水平,則否定H0并推斷出A-B不等于參考值。假設(shè)檢定的補(bǔ)充說明:1) 假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)是統(tǒng)計(jì)決策中最常用的方法之一。一般而言,假設(shè)檢驗(yàn)室一種假定初始聲明為真,然后使用樣本數(shù)據(jù)檢驗(yàn)該聲明的過程。通常,初始聲明是指相關(guān)的總體參數(shù)。假設(shè)檢驗(yàn)包括兩個(gè)假設(shè):原假設(shè)(以H0表示)和備擇假設(shè)(以H1表示)。原假設(shè)是初始聲明,且通常使用先前的研究或常識(shí)進(jìn)行指定。備擇假設(shè)是可以相信為真實(shí)或有望證明為真實(shí)的內(nèi)容。備擇假設(shè)有時(shí)是指研究假設(shè),并且可以使定向的或非定向的。假設(shè)檢驗(yàn)的決策過程可以基于給定檢驗(yàn)的概率值(p 值)。l 如果p 值小于或等于預(yù)先確定的顯著性水平(a 水平),則否定原假設(shè),轉(zhuǎn)而支持另一個(gè)假設(shè)。l 如果p 值大于顯著性水平,則不能否定原假設(shè),且不聲明支持備擇假設(shè)。執(zhí)行假設(shè)檢驗(yàn)時(shí),有四種可能的結(jié)果。結(jié)果取決于原假設(shè)的真假一家能否否定原假設(shè)。下表中匯總了這些結(jié)果: 真相決策 H0為真H0為假接受H0正確決策P=1-類型II 錯(cuò)誤P=拒絕H0類型I 錯(cuò)誤P=正確決策P=1-如果原假設(shè)為真,但否定了原假設(shè),則發(fā)生類型I錯(cuò)誤。發(fā)生類型I錯(cuò)誤的概率成為,也稱為顯著性水平。如果原假設(shè)為假,但未能否定它,則發(fā)生類型II錯(cuò)誤。發(fā)生類型II錯(cuò)的概率為。原假設(shè)為假時(shí),否定它的概率等于1-。此值也稱為檢驗(yàn)的功效。2)置信區(qū)間和范圍置信區(qū)間(CI)是用于從樣本數(shù)據(jù)中估計(jì)總體參數(shù)的區(qū)間。如果備擇假設(shè)(H1)是非定向的,則Minitab同時(shí)顯示區(qū)間的上下限,如果H1是定向的,則只顯示一個(gè)邊界。置信區(qū)間有兩個(gè)基本部分構(gòu)成:l 點(diǎn)估計(jì)-從樣本數(shù)據(jù)中計(jì)算單個(gè)值。此值被認(rèn)為是相關(guān)參數(shù)的估計(jì)是,但點(diǎn)估計(jì)不可能與參數(shù)相等。因此,為了考慮估計(jì)錯(cuò)誤的概率,在置信區(qū)間中包括了錯(cuò)誤邊際,以提供可能的參數(shù)值的范圍。l 錯(cuò)誤邊際-通過使用概率來確定置信區(qū)間的寬度。為了構(gòu)造置信區(qū)間,只需從點(diǎn)估計(jì)中加上和/或減去錯(cuò)誤邊際。對(duì)于 0.05,構(gòu)造95%的置信區(qū)間。這意味著,用于構(gòu)造區(qū)間的方法產(chǎn)生包含相關(guān)參數(shù)的區(qū)間的概率為0.95(既1-)。因此,如果構(gòu)造100個(gè)95%的置信區(qū)間,則大約有95個(gè)區(qū)間包含該參數(shù)。換句話說,參數(shù)值位于該區(qū)間內(nèi)的概率為95%。如果備擇假設(shè)有方向,則置信區(qū)間會(huì)在一個(gè)方向無限延伸。在此情況下,只顯示一個(gè)邊界。3)相關(guān)樣本和獨(dú)立樣本對(duì)連個(gè)均值之差進(jìn)行檢驗(yàn)時(shí),確定兩個(gè)樣本是相關(guān)還是獨(dú)立至關(guān)重要:l 如果一個(gè)樣本中的值影響另一個(gè)樣本中的值,則認(rèn)為兩個(gè)樣本相關(guān)。l 如果一個(gè)樣本中的不能揭示另一個(gè)樣本中中值的任何信息,則認(rèn)為這兩個(gè)樣本是獨(dú)立的。4)假設(shè)檢驗(yàn)和置信區(qū)間的關(guān)系假設(shè)正在執(zhí)行假設(shè)檢驗(yàn)。回想一下,否定原假設(shè)(H0)或無法否定該假設(shè)的決策可以基于p 值和你選擇的顯著性水平(a 水平)。如果p 值小于或等于,則否定H0;如果p 值大于,則無法否定H0。決策也可以基于使用同一水平構(gòu)造的置信區(qū)間(或邊界)。例如,顯著性水平為0.05的檢驗(yàn)的決策可以基于95%置信區(qū)間:l 如果在H0 中指定的參考值位于區(qū)間之外(即小于下限或大于上限),則可否定H0。l 如果在H0 中指定的參考值位于區(qū)間之內(nèi)(即不小于下限或不大于上限),則無法否定H0。5)選擇水平對(duì)的選擇決定類型I錯(cuò)誤的概率。此值越小,錯(cuò)誤地否定原假設(shè)(H0)的幾率就越小。但是,值越小,就意味著功效越低,并因此降低了檢測(cè)到效應(yīng)的幾率。按照慣例,最常用的水平為0.05。=0.05 表示發(fā)現(xiàn)實(shí)際并不存在的效益的幾率為5%。大多數(shù)情況下,認(rèn)為這種出現(xiàn)錯(cuò)誤的概率可以接受。但是,第特定檢驗(yàn)選擇時(shí),可能需要考慮何種錯(cuò)誤更嚴(yán)重:發(fā)現(xiàn)實(shí)際不存在的效應(yīng),或未發(fā)現(xiàn)實(shí)際存在的效應(yīng)。選擇較小的。有時(shí)選擇較小、較保守的值更好。例如,假設(shè)要檢驗(yàn)新銑床中的樣本,并嘗試決定是否購買并在加工車間中安裝一批這種機(jī)器。如果新機(jī)器比當(dāng)前使用的機(jī)器更精確,則會(huì)節(jié)省大量資金,因?yàn)樯a(chǎn)的殘次品會(huì)減少。但是,購買和安裝機(jī)器的成本非常高。購買前需要確信新機(jī)器更加精確。這種情況下,可能需要選擇較低的值,如0.001.這樣,如果實(shí)際上并非如此,將斷定新機(jī)器更精確的幾率也僅為0.1%。選擇較大的。另一方面,有時(shí)選擇較大、叫寬松的值更好。例如,假設(shè)噴氣發(fā)動(dòng)機(jī)制造商要加油一種價(jià)格較低的新滾珠軸承的穩(wěn)定性。很明顯,如果滾珠不合格,則節(jié)省的少量滾珠成本并沒有潛在災(zāi)難性后的代價(jià)值得重視。因此,可能需要選擇較高的值,如0.1。盡管這意味著在不存在差異的情況下將更可能錯(cuò)誤的斷定存在差異,但更重要的是可能檢測(cè)到軸承穩(wěn)定性的差異(如果存在)。6) 具有合理正態(tài)分布的小樣本示例下面是來自正態(tài)分布的九組數(shù)據(jù),既“沒有問題”的樣本。對(duì)于未經(jīng)培訓(xùn)的眼睛而言,其中多數(shù)直方圖可能不呈鐘形。7. 成對(duì)t 檢定1) 用途A. 確定兩個(gè)相關(guān)組是否存在差異案例:一家輪胎公司希望了解兩種輪胎設(shè)計(jì)的磨損率是否不同。要確保每個(gè)設(shè)計(jì)都與相同的氣候、路面狀況和司機(jī)相關(guān),該公司為每輛測(cè)試車都安裝了這兩種輪胎。只要在相同條件下檢驗(yàn)成對(duì)的測(cè)量值,其樣本即為相關(guān)樣本。要比較相關(guān)組的均值,與雙樣本t檢驗(yàn)相比,配對(duì)t 檢驗(yàn)不但更適用,而且功能更強(qiáng)大。B. 評(píng)估之前和之后進(jìn)行的研究結(jié)果案例:營養(yǎng)專家希望測(cè)試參與節(jié)食和日常鍛煉項(xiàng)目的有效性。如果測(cè)試參與者在參與項(xiàng)目后體重明顯下降,營養(yǎng)專家就可以聲明此項(xiàng)目有效。2) 數(shù)據(jù)數(shù)據(jù)必須是兩個(gè)相關(guān)樣本的數(shù)字測(cè)量值。(如果樣本為獨(dú)立樣本,請(qǐng)使用雙樣本t檢驗(yàn)來比較) 實(shí)例:一位生理學(xué)家想確定某種類型的賽跑計(jì)劃是否對(duì)穩(wěn)定心率有影響。對(duì)隨機(jī)選擇的15個(gè)人測(cè)量了心率。然后對(duì)其實(shí)施該賽跑計(jì)劃,并在一年后再次測(cè)量心率。因此,對(duì)每個(gè)人前后進(jìn)行的量測(cè)構(gòu)成了一個(gè)觀測(cè)值對(duì)。之前687674717172758375747677787575之后677774746970717771747368717277差值1-10-32246403973-2 使用Minitab 分析結(jié)果如下:結(jié)果解釋:A. 配對(duì)t 置信區(qū)間和測(cè)試法用于分析配對(duì)觀測(cè)值之間的差值。這些過程用來確定總體的均值差值是否可能與參考值(通常為零)不同。分析配對(duì)觀測(cè)值與分析獨(dú)立樣本相比的優(yōu)點(diǎn)在于可以析出因此人或?qū)ο笾g的差異而導(dǎo)致的觀測(cè)值的變異性,從而可生成更有功效的檢驗(yàn)。要使用配對(duì)t 過程,差值的分布應(yīng)服從正態(tài)分布。如果不滿足此條件,則應(yīng)考慮使用合適的非參數(shù)過程。而且,樣本必須是相關(guān)的或配對(duì)的。B. 使用配對(duì)的t 過程時(shí),實(shí)際上是在根據(jù)樣本數(shù)據(jù)決定哪兩個(gè)相反的假設(shè)看起來成立* H0(原假設(shè)):總體中差值的均值等于選擇的參考值(通常為零)* H1(備擇假設(shè)):總體中差值的均值不等于所選的參考值。C. 置信區(qū)間是D的一系列可能值。由于不知道D的實(shí)際值,因此可以根據(jù)樣本數(shù)據(jù)通過置信區(qū)間來猜測(cè)實(shí)際值。平均樣本差值提供D的估計(jì)值,并且使用樣本差值的標(biāo)準(zhǔn)差(StDev)來確定估計(jì)值的遠(yuǎn)離程度。D. t檢驗(yàn)提供兩個(gè)統(tǒng)計(jì)量,可用來對(duì)均值差值進(jìn)行檢驗(yàn):t 值和p 值。t 值本身并不能提供什么信息,但可以用來確定p 值。p 值可以指示當(dāng)H0成立時(shí)以特定均值和標(biāo)準(zhǔn)差獲得差值分布的可能性。必須在進(jìn)行檢驗(yàn)之前確定否定H0所需的p 值。選擇作為標(biāo)準(zhǔn)的值稱為水平。如果p 值小于或等于水平,則否定H0并推斷出不等于參考值。8. 單比率1) 用途A. 將比率與目標(biāo)值進(jìn)行比較案例:一家冰激凌公司通過詢問品嘗者是否會(huì)因?yàn)榱?xí)慣他們的新口味兒購買此產(chǎn)品來檢驗(yàn)新口味。如果表示要購買冰激凌的品嘗者的比率超過80%,該公司將把這冰激凌推向市場(chǎng)。B. 估計(jì)比率案例:一家廣告代理商希望知道公眾對(duì)新的人工甜味劑的看法。該代理商將基于那些對(duì)此甜味劑持反對(duì)意見的人員比率來調(diào)整廣告策略。2) 數(shù)據(jù)數(shù)據(jù)必須記錄一系列只有兩個(gè)可能結(jié)果的獨(dú)立實(shí)驗(yàn)的結(jié)果。 實(shí)例:一家直郵公司隨即選擇向1000個(gè)家庭發(fā)送一種新洗衣粉的廣告。在接收此郵件的1000個(gè)家庭中,87個(gè)家庭購買了這種洗衣粉。該公司希望確定此成功率十分與他們的平均成功率6.5%有差異。9. 雙比率1) 用途A 指定兩個(gè)組中的比率是否存在差異案例:一個(gè)工廠經(jīng)理需要監(jiān)管兩個(gè)類似的汽車變速器裝配線。它需要知道這兩條線的缺陷變速器比率是否存在差異,存在差異意味著存在問題。有時(shí),只需要知道存在有實(shí)際意義的差異即可。當(dāng)只有兩個(gè)可能結(jié)果時(shí),可以使用雙比率檢驗(yàn)比較著兩個(gè)組。B 確定其中一組的比率是否比另一組的比率高案例:一所學(xué)校要評(píng)估一個(gè)旨在保障兒童不退學(xué)的新咨詢項(xiàng)目。學(xué)校希望知道此項(xiàng)目開始后,退學(xué)的學(xué)生比率是否顯著下降。C 確定兩組比率的差異是否為某一特定量案例:一家容器公司正在考慮體會(huì)用于模壓塑料瓶程序的機(jī)器,從而降低出現(xiàn)缺陷產(chǎn)品的比率。但是,僅當(dāng)缺陷比率低于5%或更多時(shí)才值得對(duì)此次設(shè)備升級(jí)投資。即使兩組之間存在差異,以比率表示的差異,以比率表示的差異大小可能會(huì)因?yàn)樘《鴽]有任何實(shí)際意義。通過上比率檢驗(yàn),可以檢驗(yàn)認(rèn)為重要的任意大小之間的差異,并計(jì)算出可能會(huì)包含組間差異的一系列值。2) 數(shù)據(jù)對(duì)于每個(gè)樣本,數(shù)據(jù)都必須記錄一系列只有兩個(gè)可能結(jié)果的獨(dú)立實(shí)驗(yàn)結(jié)果。 實(shí)例:大學(xué)的財(cái)政援助辦公室對(duì)其大學(xué)生進(jìn)行調(diào)查,確定男生還是女生更可能獲得暑假職業(yè)。子啊抽樣的802名男生中,725人在暑假被雇傭,而抽樣的712名女生中有573人被雇傭。10. 單方差1) 用途A. 將過程方差與目標(biāo)值進(jìn)行比較案例:一家木地板公司要檢驗(yàn)所有交付的未經(jīng)處理木材的含水量。如果含水量變化過大,就表示木材未經(jīng)過合適的干燥處理,該地板公司將不會(huì)接受這批貨物。過大的過程變異將導(dǎo)致不一致或不可預(yù)測(cè)的結(jié)果,從而危害過程輸出和客戶滿意度。請(qǐng)使用單方差檢驗(yàn)將方差或標(biāo)準(zhǔn)差與目標(biāo)值做比較。B估計(jì)過程方差 案例:一家機(jī)械廠正在使用一種新銑床生產(chǎn)發(fā)動(dòng)機(jī)部件。因?yàn)樵撱姶彩巧a(chǎn)過程中的一個(gè)很有影響的部分,該機(jī)械廠希望重新評(píng)估此過程中存在的變異性大小。 在不測(cè)量每個(gè)可能的觀測(cè)值的情況下,我們將無法真正知道數(shù)據(jù)的真實(shí)方差。單方差檢驗(yàn)科員采用置信區(qū)間的形式提供具有實(shí)際意義的方差估計(jì)值。2) 數(shù)據(jù)數(shù)據(jù)應(yīng)該是從服從任意分布的連續(xù)量測(cè)值中隨機(jī)收集到的。實(shí)例:木材廠的經(jīng)理希望分析鋸木機(jī)的性能。設(shè)計(jì)了一臺(tái)鋸木機(jī),以生產(chǎn)剛好為100cm 長的梁。經(jīng)理決定要分析哲學(xué)長度的方差,以便更好地了解設(shè)備的精度。經(jīng)理從中選取50個(gè)梁作為樣本,以厘米為單位測(cè)量其長度,并使用單方差檢驗(yàn)分析方差。長度99.002 100.242 100.042 99.596 100.031 99.909 99.648 100.683 100.294 98.342 100.592 99.166 100.513 99.427 99.972 99.844 102.377 99.800 101.390 101.041 99.857 100.623 99.849 100.114 100.266 101.976 99.225 100.220 101.424 102.319 100.227 100.210 99.882 101.338 99.819 101.082 98.364 99.169 100.005 100.445 99.381 100.148 101.322 99.843 100.359 99.976 99.147 101.100 99.376 100.274 使用Minitab 分析結(jié)果如下:結(jié)果解釋:A. 單方差命令分析來自總體的單個(gè)樣本,并為該總體的標(biāo)準(zhǔn)差和方差計(jì)算置信區(qū)間。它還以可選的假設(shè)檢驗(yàn)為特征,來確定未知的總體標(biāo)準(zhǔn)差和方差是否等于用戶指定的值。B. 描述性統(tǒng)計(jì)量N,此值表示樣本數(shù)量,它等于樣本中的非缺失觀測(cè)值的個(gè)數(shù)。C. 標(biāo)準(zhǔn)差,此統(tǒng)計(jì)量測(cè)量數(shù)據(jù)圍繞其均值分散的范圍。標(biāo)準(zhǔn)差等于樣本方差的平方根。D. 方差,此統(tǒng)計(jì)量測(cè)試數(shù)據(jù)圍繞其均值分析的范圍。方差等于標(biāo)準(zhǔn)差的平方。E. 如果可以安全的假設(shè)樣本來自正態(tài)分布的總體,則請(qǐng)使用卡方方法。這些置信區(qū)間提供了可能分布包含未知總體標(biāo)準(zhǔn)差和方差的一系列值。F. 如果您的樣本數(shù)據(jù)連續(xù)但不來自于正態(tài)分布的總體,則請(qǐng)使用Bonett 方法。這些置信區(qū)間提供了可能分布包含未知總體標(biāo)準(zhǔn)差和方差的一系列值。11. 雙方差1) 用途A. 確定一個(gè)組中的數(shù)據(jù)是否比另一個(gè)組中的數(shù)據(jù)變化更大案例:一家早餐公司對(duì)大幅波動(dòng)的谷類食品盒填充量感到不滿意。公司將檢測(cè)一種替換設(shè)備。如果此新設(shè)備可以在填充食品盒時(shí)使變異性變小,他們將購買此設(shè)備。包含變異過大的過程無法提供一致的部件或服務(wù),而且其性能也不可預(yù)測(cè)。當(dāng)在兩個(gè)組或兩個(gè)過程治具選擇時(shí),請(qǐng)選擇雙方差檢驗(yàn)來確定哪個(gè)變異性更低。B. 確定兩組的方差之間的差異是否為某一特定量案例:一家服裝制造商因某個(gè)供應(yīng)商的織物質(zhì)量不穩(wěn)定而感到不滿意。由于不太愿意結(jié)束與此供應(yīng)商的長期穩(wěn)定關(guān)系,該公司僅當(dāng)新供應(yīng)商可以交付質(zhì)量變異性減半的材料時(shí)才會(huì)更換供應(yīng)商。即時(shí)兩組的方差之間存在差異,差異也可能會(huì)因?yàn)樘《鴽]有任何實(shí)際意義。通過雙方差檢驗(yàn),可以檢驗(yàn)認(rèn)為重要的任意大小之間的差異,并計(jì)算出可能會(huì)包含組間差異的一系列值。2) 數(shù)據(jù)必須為兩個(gè)隨機(jī)樣本都提供連續(xù)的數(shù)字測(cè)量值。數(shù)據(jù)可以來自任意分布。實(shí)例:最近的研究對(duì)在兩種路面上駕駛的司機(jī)進(jìn)行了比較。美味司機(jī)在兩種路面的其中一種路面上駕駛:已鋪筑(1)和未鋪筑的土砂路(2)。為了測(cè)量駕駛水平,測(cè)試人員記錄了每位司機(jī)在每種路面上所做的控制校正次數(shù)。你希望確定司機(jī)在這兩種路面狀況下駕駛水平的變化是否相同。方法類型1111222211112222修正41881016272314641372015817使用Minitab 分析結(jié)果如下:結(jié)果解釋:A 雙方差置信區(qū)間和檢驗(yàn)過程用于根據(jù)兩個(gè)獨(dú)立的隨機(jī)樣本中的數(shù)據(jù)對(duì)兩個(gè)總體比率治具的標(biāo)準(zhǔn)差和方差的相等性進(jìn)行推斷。Minitab 將計(jì)算兩個(gè)總體方差和標(biāo)準(zhǔn)差治具比率的假設(shè)檢驗(yàn)和置信區(qū)間;如果比率為1,則表明兩個(gè)總體相等。包括方差分析在內(nèi)的許多統(tǒng)計(jì)過程都假定不同總體具有相同的方差。使用雙方差可以確定相等的假設(shè)是否有效。B 每個(gè)樣本的標(biāo)準(zhǔn)差和方差將被計(jì)算并作為實(shí)際總體值得點(diǎn)估計(jì)值。C 置信區(qū)間是實(shí)際標(biāo)準(zhǔn)差()和方差(2)比率的一些列可能值。由于不知道或2 的實(shí)際值,因此置信區(qū)間可能會(huì)根據(jù)樣本數(shù)據(jù)提供每個(gè)比率的范圍。如果范圍包括1,則你無法拒絕兩個(gè)總體治具的值相等這一假設(shè)。置信區(qū)間表顯示以下信息:l 數(shù)據(jù)分布-正態(tài)且連續(xù)(變量時(shí)連續(xù)的,但不一定正態(tài)分布)。Minitab 將計(jì)算著兩個(gè)分布的置信區(qū)間。執(zhí)行正態(tài)性檢驗(yàn),以確定應(yīng)使用的分布。l 標(biāo)準(zhǔn)差比率的置信區(qū)間-即兩個(gè)標(biāo)準(zhǔn)差之間的比率的95%置信區(qū)間的置信上限和下限。l 方差的置信區(qū)間-即兩個(gè)方差的比率的95%置信區(qū)間的置信下限和上限。D 假設(shè)檢驗(yàn)Minitab 中顯示了用于判斷方差是否相等的兩種檢驗(yàn)的結(jié)果:F檢驗(yàn)和Levene 檢驗(yàn)。在這兩種檢驗(yàn)中,原假設(shè)之門這兩個(gè)方差(或等效的總體標(biāo)準(zhǔn)差)相等(H0:2 1/2 2=1),與指出他們不相等的備擇假設(shè)相比(H1:2 1/2 21)。檢驗(yàn)的選項(xiàng)取決于分布屬性:l 當(dāng)數(shù)據(jù)來自正態(tài)分布是使用F檢驗(yàn)。對(duì)于偏離正態(tài)性的情況,F(xiàn) 檢驗(yàn)的功能并不強(qiáng)大。l 當(dāng)數(shù)據(jù)來自連續(xù)但不一定正態(tài)的分布時(shí),請(qǐng)使用Levene 檢驗(yàn)。Levene 檢驗(yàn)不如F檢驗(yàn)敏感,因此當(dāng)數(shù)據(jù)為正態(tài)或接近正態(tài)時(shí),請(qǐng)使用F檢驗(yàn)。E Minitab 對(duì)于F 檢驗(yàn)和Levene 檢驗(yàn)度計(jì)算和顯示檢驗(yàn)統(tǒng)計(jì)量和p 值。l p 值較高,則表明方差之間不存在顯著差異l p 值較低,則表明方差治具存在差異12. 正態(tài)性檢驗(yàn)1) 用途A 確定數(shù)據(jù)是否遵循正態(tài)分布案例:一名研究人員希望研究噴氣發(fā)動(dòng)機(jī)的某個(gè)關(guān)鍵部件的鑄造過程。由于需要使用正態(tài)分布數(shù)據(jù)的檢驗(yàn)在于非正態(tài)數(shù)據(jù)結(jié)合使用時(shí)產(chǎn)生誤導(dǎo)性結(jié)果,因此,該研究人員需要確保數(shù)據(jù)遵循正態(tài)分布。通常,統(tǒng)計(jì)過程都會(huì)假設(shè)數(shù)據(jù)來自正態(tài)分布。盡管許多檢驗(yàn)不使用正態(tài)數(shù)據(jù)也可以正常工作,但在某些情況下,使用非正態(tài)數(shù)據(jù)會(huì)產(chǎn)生誤導(dǎo)性結(jié)果。請(qǐng)使用正態(tài)性檢驗(yàn)來確定數(shù)據(jù)是否遵循正態(tài)分布。2) 數(shù)據(jù)數(shù)據(jù)必須為數(shù)字。實(shí)例:一位營養(yǎng)學(xué)家隨機(jī)選擇了13瓶食用油樣本,以便確定飽和脂肪的平均百分比是否不同于宣傳的15%。儀器的研究表明,總體標(biāo)準(zhǔn)差為2.6%。單樣本Z檢驗(yàn)似乎適合用,但需要檢驗(yàn)正態(tài)性假設(shè)。脂肪含量15.212.415.416.515.917.116.914.319.118.218.516.320使用Minitab 分析結(jié)果如下:結(jié)果解釋:A. 許多統(tǒng)計(jì)過程都假定數(shù)據(jù)服從正態(tài)分布。為了驗(yàn)證此假設(shè),可對(duì)數(shù)據(jù)執(zhí)行正態(tài)性檢驗(yàn)。Minitab 提供三種可供選擇的正態(tài)性檢驗(yàn):l Anderson-Daarling-此檢驗(yàn)具有極好的功效,并且在分布的高值和地址中檢測(cè)對(duì)正態(tài)性的偏離是特別有效。l Ryan-Joiner(與Shapiro-Wilk 類似)-此檢驗(yàn)具有極好的功效。它基于樣本數(shù)據(jù)域期望從正態(tài)分布中獲得數(shù)據(jù)之間的相關(guān)。l Kolmogrov-Smirnov這是常見的正態(tài)性檢驗(yàn),但功效比其他兩種檢驗(yàn)要低。每個(gè)檢驗(yàn)的結(jié)果都帶有正態(tài)概率圖,這有助于確定數(shù)據(jù)是否服從正態(tài)分布。B. 正態(tài)性檢驗(yàn)評(píng)估原假設(shè)(H0),及數(shù)據(jù)服從正態(tài)分布。如果檢驗(yàn)的p 值小于所選的水平,則必須否定H0 并推斷出數(shù)據(jù)部服從正態(tài)分布。二、 回歸1. 回歸1) 用途A. 確定兩個(gè)變量是否具有線性關(guān)系案例:大學(xué)錄取辦公室對(duì)學(xué)生的學(xué)業(yè)成績與其大學(xué)入學(xué)考試的分?jǐn)?shù)之間的關(guān)系感興趣。強(qiáng)線性關(guān)系將表明入學(xué)考試時(shí)作出錄取決定的有效工具。回歸時(shí)確定兩個(gè)變量治具是否存在線性關(guān)系的強(qiáng)大工具;也就是說,當(dāng)一個(gè)變量增大時(shí),另一個(gè)變量將按比例增大或減小。B. 檢驗(yàn)單個(gè)響應(yīng)與多個(gè)預(yù)測(cè)變量之間的關(guān)系案例:一個(gè)農(nóng)業(yè)研究員知道多種變量(溫度、降雨量、肥料類型等)可以影響農(nóng)作物的產(chǎn)量。如果她知道這些預(yù)測(cè)量的組合如何影響農(nóng)作物產(chǎn)量,她就可以在任何氣候條件下都保持產(chǎn)量。在許多情況下并非一個(gè)預(yù)測(cè)變量,而是多個(gè)預(yù)測(cè)變量,可以最好的描述響應(yīng)或結(jié)果?;貧w可用于以數(shù)學(xué)方式描述這種關(guān)系。C. 預(yù)測(cè)一組新的觀測(cè)值的響應(yīng)案例:一家公用事業(yè)公司希望幫助客戶估計(jì)他們?cè)诩磳⒌絹淼亩镜娜剂铣杀?。通過現(xiàn)有客戶的記錄,該公司創(chuàng)建了一個(gè)基于平均溫度、家庭成員數(shù)和供熱系統(tǒng)的類型和使用年限估計(jì)取暖的公式。然后,客戶即可向燃料公司提供這些數(shù)據(jù)以估計(jì)他們未來的取暖費(fèi)?;貧w使用觀測(cè)數(shù)據(jù)方程來描述一個(gè)或多個(gè)預(yù)測(cè)變量與一個(gè)響應(yīng)之間的關(guān)系。通過使用此方程,可以在具有一組新預(yù)測(cè)變量時(shí)預(yù)測(cè)響應(yīng)值。2) 數(shù)據(jù)預(yù)測(cè)變量和響應(yīng)變量必須是數(shù)值型的。實(shí)例:在不同的HCH0 濃度、催化劑比率、凝固溫度和凝固時(shí)間下生產(chǎn)出32件棉纖維素。對(duì)每件產(chǎn)品都記錄了耐壓等級(jí),及抗皺性的度量。通過多元線性回歸評(píng)估了響應(yīng)、等級(jí)和預(yù)測(cè)變量、濃度、比率、溫度以及時(shí)間之間的線性相關(guān)性。濃度比率溫度時(shí)間評(píng)級(jí)8410011.42418072.27418014.610712054.97418054.67718014.771314014.65416074.54714034.85110071.481014034.72410031.641018034.56712074.7101318034.841016054.641310074.3101012074.95410011.781314014.610118012.621314013.161318074.77112072.551314014.58116072.14118071.86116011.54110011.371010074.64110011.44110011.45使用Minitab 分析結(jié)果如下:結(jié)果解釋:A 線性回歸用于調(diào)查響應(yīng)(Y)和預(yù)測(cè)變量(X)之間的線性關(guān)系,并對(duì)其建模。響應(yīng)和預(yù)測(cè)變量都是連續(xù)變量。線性回歸分析常用于:l 確定響應(yīng)變量如何隨特定預(yù)測(cè)變量的變化而變化l 預(yù)測(cè)任何預(yù)測(cè)變量值或預(yù)測(cè)變量值組合的響應(yīng)變量值B. 回歸方程是回歸線的一種代數(shù)表示形式,用于描述響應(yīng)和預(yù)測(cè)變量之間的關(guān)系?;貧w方程采取的形式為:響應(yīng)=常量+系數(shù)*(預(yù)測(cè)變量)+系數(shù)*(預(yù)測(cè)變量) 或者 y=b0 + b1*X1 + b2*X2 + + bk*Xk 其中:l 響應(yīng)(Y)是響應(yīng)的值l 常量(b0)是當(dāng)預(yù)測(cè)變量為零時(shí)響應(yīng)變量的值。由于此常量確定回歸線截取Y軸的位置,因此稱它為截距。l 預(yù)測(cè)變量(X)是預(yù)測(cè)變量的值。l 系數(shù)(b1,b2,bk)表示預(yù)測(cè)變量值得每個(gè)單位變化所對(duì)應(yīng)的均值響應(yīng)的估計(jì)變化。也就是說,他是X 增加一個(gè)單位時(shí)Y發(fā)生的變化。C. 系數(shù)表列出了預(yù)測(cè)變量的估計(jì)系數(shù)。線性回歸用于檢查響應(yīng)和預(yù)測(cè)變量之間的關(guān)系。要確定響應(yīng)和預(yù)測(cè)變量之間觀測(cè)到的關(guān)系是否統(tǒng)計(jì)意義顯著,需要:l 確定系數(shù)p 值:p的系數(shù)值說明響應(yīng)和預(yù)測(cè)變量治具的相關(guān)性是否統(tǒng)計(jì)意義顯著。l 將系數(shù)p 值與水平進(jìn)行比較:如果p值小于選擇的水平,則相關(guān)性的統(tǒng)計(jì)意義顯著。D. S、R2 和調(diào)整的R2 是模型對(duì)數(shù)據(jù)的擬合優(yōu)度的度量。這些值有助于選擇具有最佳擬合的模型。l S 以響應(yīng)變量的單位進(jìn)行度量,它表示數(shù)據(jù)值偏離回歸線的標(biāo)準(zhǔn)距離。對(duì)于給定研究,等式預(yù)測(cè)響應(yīng)的效果越好,S越小。l R2 (R 平方) 描述在觀測(cè)到的響應(yīng)值中有預(yù)測(cè)變量解釋的變異量。R2 始終歲預(yù)測(cè)變量的增加而增大。l 調(diào)整的R2 表示已根據(jù)模型中的項(xiàng)數(shù)調(diào)整的修正R2。如果包括了不必要的項(xiàng),R2 會(huì)人為地變的很高。與R2 不同,調(diào)整的R2 在向模型中添加項(xiàng)時(shí)可能變小。使用調(diào)整的R2 比較預(yù)測(cè)變量數(shù)不同的各個(gè)模型。E. 方差分析表顯示響應(yīng)數(shù)據(jù)中由預(yù)測(cè)變量解釋的變異量以及剩余未解釋的變異量。如果在預(yù)測(cè)變量的某些設(shè)置下觀測(cè)到重復(fù)的響應(yīng)值,則未解釋的變異可以分為因純誤差而導(dǎo)致的變異和因模型不完善(失擬)而導(dǎo)致的變異。小于p 的兩個(gè)值是最重要的需要考慮的結(jié)果:l 使用第一個(gè)p 值(回歸)分析回歸系數(shù)是否與零顯著不同。如果p 值小于預(yù)先選擇的水平,則可以推斷至少有一個(gè)系數(shù)不為零。l 使用第二個(gè)p 值(失擬)確定是否只有線性預(yù)測(cè)變量足以解釋響應(yīng)的變異。如果p 值小于預(yù)先選擇的水平,則可以斷定線性預(yù)測(cè)變量不足以解釋響應(yīng)的變異。在這種情況下,可能需要考慮高次項(xiàng)??梢砸淮我粋€(gè)地包括預(yù)測(cè)變量的二次項(xiàng),并重新分析數(shù)據(jù)。F. 異常觀測(cè)表顯示帶有絕對(duì)值大于2的標(biāo)準(zhǔn)化殘差的案例。G. 要求計(jì)算響應(yīng)的均值或預(yù)測(cè)新響應(yīng)值時(shí),Minitab 顯示預(yù)測(cè)變量的所選值。H. 要求計(jì)算預(yù)測(cè)變量的某些設(shè)置下的響應(yīng)的均值或預(yù)測(cè)新響應(yīng)值時(shí),Minitab 顯示預(yù)測(cè)值表。擬合是在所要求的預(yù)測(cè)變量設(shè)置的組合下響應(yīng)的預(yù)測(cè)(擬合)值。I. 對(duì)于均值響應(yīng)計(jì)算,置信區(qū)間給出了在所選預(yù)測(cè)變量設(shè)置的組合下期望均值響應(yīng)所在的范圍。也就是說,置信區(qū)間提供了給定預(yù)測(cè)變量設(shè)置的組合下可能的平均響應(yīng)值區(qū)間。J. 對(duì)于新響應(yīng)預(yù)測(cè),預(yù)測(cè)區(qū)間是期望新響應(yīng)值所落的范圍。也
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)心理健康《情緒氣象臺(tái)》教案
- 沖擊波術(shù)后護(hù)理
- 五分鐘高效病例匯報(bào)策略
- 安全生產(chǎn)管理責(zé)任制
- 食管賁門失弛緩癥護(hù)理
- 2025年細(xì)編含鎢絲織物項(xiàng)目規(guī)劃申請(qǐng)報(bào)告模板
- 【蕪湖】2025年安徽蕪湖無為市文化旅游體育局招聘工作人員3人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 【福州】2025年福建福州閩侯縣事業(yè)單位公開招聘青年人才42人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 光源的教學(xué)課件
- 年月日公開課教學(xué)課件
- 2024年露營帳篷項(xiàng)目可行性研究報(bào)告
- 2023年國網(wǎng)山西省電力公司提前批招聘考試真題
- 乙型肝炎病毒實(shí)驗(yàn)活動(dòng)風(fēng)險(xiǎn)評(píng)估報(bào)告
- 福建省機(jī)關(guān)工作人員年度考核登記表
- DL∕T 5452-2012 變電工程初步設(shè)計(jì)內(nèi)容深度規(guī)定
- 《山區(qū)公路橋梁典型病害手冊(cè)(試行)》
- 中國急性缺血性卒中診治指南(2023)解讀
- 研學(xué)基地合作協(xié)議
- 商業(yè)步行街物業(yè)管理服務(wù)質(zhì)量標(biāo)準(zhǔn)
- 駕駛員行為規(guī)范管理制度
- 化妝品生產(chǎn)工藝驗(yàn)證報(bào)告范文模板-新規(guī)要求工藝參數(shù)及關(guān)鍵控制點(diǎn)驗(yàn)證
評(píng)論
0/150
提交評(píng)論