




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、第八章 記數(shù)數(shù)據(jù)統(tǒng)計法卡方檢驗法知識引入在各個研究領域中,有些研究問題只能劃分為不同性質(zhì)的類別,各類別沒有量的聯(lián)系。例如,性別分男女,職業(yè)分為公務員、教師、工人、,教師職稱又分為教授、副教授、。有時雖有量的關(guān)系,因研究需要將其按一定的標準分為不同的類別,例如,學習成績、能力水平、態(tài)度等都是連續(xù)數(shù)據(jù),只是研究者依一定標準將其劃分為優(yōu)良中差,喜歡與不喜歡等少數(shù)幾個等級。對這些非連續(xù)等距性數(shù)據(jù),要判別這些分類間的差異或者多個變量間的相關(guān)性方法稱為計數(shù)數(shù)據(jù)統(tǒng)計方法。卡方檢驗是專用于解決計數(shù)數(shù)據(jù)統(tǒng)計分析的假設檢驗法。本章主要介紹卡方檢驗的兩個應用:擬合性檢驗和獨立性檢驗。擬合性檢驗是用于分析實際次數(shù)與理
2、論次數(shù)是否相同,適用于單個因素分類的計數(shù)數(shù)據(jù)。獨立性檢驗用于分析各有多項分類的兩個或兩個以上的因素之間是否有關(guān)聯(lián)或是否獨立的問題。在計數(shù)數(shù)據(jù)進行統(tǒng)計分析時要特別注意取樣的代表性。我們知道,統(tǒng)計分析就是依據(jù)樣本所提供的信息,正確推論總體的情況。在這一過程中,最根本的一環(huán)是確保樣本的代表性及對實驗的良好控制。在心理與教育研究中,所搜集到的有些數(shù)據(jù)屬于定性資料,它們常常是通過調(diào)查、訪問或問卷獲得,除了少數(shù)實驗可以事先計劃外,大部分收集數(shù)據(jù)的過程是難于控制的。例如,某研究者關(guān)于某項教育措施的問卷調(diào)查,由于有一部分教師和學生對該項措施存有意見,或?qū)柧肀旧碛衅?,根本就不填寫問卷。這樣該研究所能收回的問
3、卷只能代表一部分觀點,所以它是一個有偏樣本,若據(jù)此對總體進行推論,就會產(chǎn)生一定的偏差,勢必不能真實地反映出教師與學生對這項教育措施的意見。因此應用計數(shù)資料進行統(tǒng)計推斷時,要特別小心謹慎,防止樣本的偏倚性,只有具有代表性的樣本才能作出正確的推論。 第一節(jié) 卡方擬合性檢驗一、卡方檢驗的一般問題 卡方檢驗應用于計數(shù)數(shù)據(jù)的分析,對于總體的分布不作任何假設,因此它又是非參數(shù)檢驗法中的一種。它由統(tǒng)計學家皮爾遜推導。理論證明,實際觀察次數(shù)(fo)與理論次數(shù)(fe),又稱期望次數(shù))之差的平方再除以理論次數(shù)所得的統(tǒng)計量,近似服從卡方分布,可表示為:這是卡方檢驗的原始公式,其中當fe越大(fe5),近似得越好。顯
4、然fo與fe相差越大,卡方值就越大;fo與fe相差越小,卡方值就越小;因此它能夠用來表示fo與fe相差的程度。根據(jù)這個公式,可認為卡方檢驗的一般問題是要檢驗名義型變量的實際觀測次數(shù)和理論次數(shù)分布之間是否存在顯著差異。它主要應用于兩種情況:卡方檢驗能檢驗單個多項分類名義型變量各分類間的實際觀測次數(shù)與理論次數(shù)之間是否一致的問題,這里的觀測次數(shù)是根據(jù)樣本數(shù)據(jù)得多的實計數(shù),理論次數(shù)則是根據(jù)理論或經(jīng)驗得到的期望次數(shù)。這一類檢驗稱為擬合性檢驗。擬合性檢驗的零假設是觀測次數(shù)與理論次數(shù)之間無差異。其中理論次數(shù)的計算一般是根據(jù)某種理論,按一定的概率通過樣本即實際觀測次數(shù)來計算。這里所說的某種理論,可能是經(jīng)驗規(guī)律
5、,也可能是理論分布。確定理論次數(shù)是卡方檢驗的關(guān)鍵。擬合性檢驗自由度的確定與兩個因素有關(guān):一是分類的項數(shù),二是在計算理論次數(shù)時,所用統(tǒng)計量或約束條件的個數(shù),這兩者之差即為自由度。由于一般情況下,計算理論次數(shù)時只用到“總數(shù)”這一統(tǒng)計量,所以自由度一般是分類的項數(shù)減1。但在對連續(xù)數(shù)據(jù)分布的配合度檢驗中,常常會用數(shù)據(jù)個數(shù)、平均數(shù)、標準差等統(tǒng)計量來計算理論次數(shù),所以此時的自由度應從總分類項中減去更多的個數(shù)。按照檢驗中理論次數(shù)的定義不同,擬合性檢驗有以下集中應用。 二、檢驗無差假設所謂無差假設,是指各項分類的實計數(shù)之間沒有差異,也就是說各項分類之間的概率相等(均勻分布),因此理論次數(shù)完全按概率相
6、等的條件來計算。即任一項的理論次數(shù)都等于總數(shù)/分類項數(shù)。因此自由度也就等于分類項數(shù)減1?!纠?】 隨機地將麻將色子拋擲300次,檢驗該色子的六個面是否均勻。結(jié)果1-6點向上的次數(shù)依次是,43,49,56,45,66,41。解:每個類的理論次數(shù)是 300/6 = 50,代入公式:因此,在0.05的顯著性水平下,可以說這個色子的六面是均勻的。【例2】 隨機抽取60名高一學生,問他們文理要不要分科,回答贊成的39人,反對的21人,問對分科的意見是否有顯著的差異。解:如果沒有顯著的差異,則贊成與反對的各占一半,因此是一個無差假設的檢驗,于是理論次數(shù)為60/2=30,代入公式:所以對于文理分科,學生們的
7、態(tài)度是有顯著的差異的。 三、檢驗假設分布的概率這里的假設分布可以是經(jīng)驗性的,也可以是某理論分布。公式中所需的理論次數(shù)則按照這里假設的分布進行計算?!纠?】 國際色覺障礙討論會宣布,每12個男子中,有一個是先天性色盲。從某校抽取的132名男生中有4人是色盲,問該校男子色盲比率與上述比例是否有顯著差異?解:按國際色覺障礙討論會的統(tǒng)計結(jié)果,132人應該有132/12=11人是色盲,剩下的121人非色盲,代入公式有:因此,在0.05和顯著性水平下,該校男子色盲比率與國際色覺障礙討論會的統(tǒng)計結(jié)果有顯著差異,顯然根據(jù)比例可知該校的色盲率小于國際色覺障礙討論會的統(tǒng)計結(jié)果?!纠?】 在英語四級考試中
8、,某學生做對了80個四擇一選擇題中的28題,現(xiàn)在要判斷該生是否是完全憑猜測做題。解:假如該生完全憑猜測做題,那么平均而言每道題做對的可能性是1/4,因此80個題中平均而能做對80/4=20題,代入公式有:因此,該生可能會做一些題。 四、連續(xù)變量分布的擬合性檢驗對于一組連續(xù)數(shù)據(jù),經(jīng)常需要對其次數(shù)分布究竟服從哪種理論分布進行探討,這一方面的主要應用就是在前面經(jīng)常所提到的總體正態(tài)性檢驗。首先要將測量數(shù)據(jù)整理成次數(shù)分布表和畫出次分布圖,并據(jù)此選擇恰當?shù)睦碚摲植?。這些理論分布是多種多樣的,例如有正態(tài)分布、均勻分布等。然后根據(jù)選擇的理論分布計算出理論次數(shù),就可以計算卡方統(tǒng)計量并進行顯著性檢驗了。
9、若差異顯著,說明所選擇的理論分布不合適,可以再選一個理論分布進行檢驗,直至完全擬合。當然有時也只需檢驗是否與某確定的理論分布相符,如正態(tài)性檢驗(參見教材有關(guān)內(nèi)容)。對連續(xù)隨機變量分布的吻合性檢驗,關(guān)鍵的步驟是計算理論次數(shù)與確定自由度。理論次數(shù)的計算是按所選理論分布規(guī)律,并利用觀測數(shù)據(jù)的有關(guān)統(tǒng)計量來計算各分組(次數(shù)分布表中)理論次數(shù)。自由度則是用分組數(shù)減去計算理論次數(shù)時所用統(tǒng)計量的數(shù)目。這種擬合性檢驗計算較為繁瑣,不做要求。 五、小理論次數(shù)時的連續(xù)性校正卡方檢驗中,當某分類理論次數(shù)小于5時,卡方統(tǒng)計量不能很好地滿足卡方分布,此時需要對卡方統(tǒng)計量進行校正,稱為卡方的連續(xù)性校正,其公式如下
10、:盡管采用此方法校正后,卡方統(tǒng)計量能較為接近卡方分布,不過我們?nèi)匀唤ㄗh在實際中最好增大樣本的容量,盡量減少出現(xiàn)這種不大服從理論分布的情況。第二節(jié) 獨立性檢驗卡方檢驗還可以用于檢驗兩個或兩個以上因素(各有兩項或以上的分類)之間是否相互影響的問題,這種檢驗稱為獨立性檢驗。例如要討論血型與性格的關(guān)系,血型有A、B、AB、O四類,性格采用心理學上的A型性格來劃分,即有A型和B型兩種,每個人可能是它們之間交叉所形成的8種類型中的一種,那么倒底它們之間有不有關(guān)系,就可以用卡方獨立性檢驗??ǚ姜毩⑿詸z驗用于檢驗兩個或兩個以上因素(各有兩項或以上的分類)之間是否相互影響的問題。所謂獨立,即無關(guān)聯(lián),互不影響,就
11、意味著一個因素各個分類之間的比例關(guān)系,在另一個因素的各項分類下都是相同的,比如在血型與性格關(guān)系中,如果A型性格人群中各血型的比例關(guān)系,與B型性格人群中各血型的比例關(guān)系相同,就可能說血型與性格相互獨立,當然這里的“兩者比例相同”在統(tǒng)計的意義下,應表述為“兩比例差異不超過誤差范圍”,因為就算總體之間相互獨立,收集到兩個比例完全相同的樣本的可能是很小很小的,甚至是不可能的。相反,若一個因素各個分類之間的比例關(guān)系,在另一個因素的各項分類下是不同的,則它們之間相關(guān)。假如A型性格中A型血的比例高于B型性格中A型血的比例,而且達到顯著水平,那么就可以說血型與性格之間相關(guān),不相互獨立。卡方獨立性檢驗的零假設是
12、各因素之間相互獨立。因此理論次數(shù)的計算也是基于這一假設,具體計算時,采用列聯(lián)表的方式,后面將舉例說明?!纠?】 某校對學生課外活動內(nèi)容進行調(diào)查,結(jié)果整理成下表,表中彩色格子里的數(shù)是原始數(shù)據(jù)的匯總數(shù),括號內(nèi)的數(shù)是理論次數(shù)(是按下面將要介紹的原理計算得來的),此外的是原始數(shù)據(jù)。 性別(因素2)課外活動內(nèi)容(因素1)小計和(fx)體育文娛閱讀男生21(15.3)11(10.2)23(29.5)55女生 6(11.7) 7(7.8)29(22.5)42小計和(fy)27185297 由于所有學生參加三項活動的比例是27:18:52,因此如果課外活動的選擇與性別沒
13、有關(guān)系的話,男女生參加這三項活動的比例也應是這同一比例,而男女各自的人數(shù)可以計算,所以每格內(nèi)的理論次數(shù)的計算方法如下:男生中參加體育活動的理論人數(shù):55×27/97=15.3參加文娛活動的理論人數(shù):55×18/97=10.2參加閱讀活動的理論人數(shù):55×52/97=29.5女生中參加體育活動的理論人數(shù):42×27/97=11.7參加文娛活動的理論人數(shù):42×18/97= 7.8參加閱讀活動的理論人數(shù):42×52/97=22.5我們將行列的小計和分別用 fx 和 fy 來表示,總?cè)藬?shù)用 N 來表示時,上述計算理論次數(shù)的方法可以表示為:f
14、eij = fxi× fyj/N所以,卡方獨立性檢驗的公式可以表示如下,其中最后一個式子比較便于計算,fxy 表示每格的原始數(shù)據(jù)。由于在計算理論次數(shù)時,用了按每個因素分類的小計和(fx 和 fy,其個數(shù)分別記為 R 個和 C 個),和總和 N ,而總和又可由按每個因素分類的小計和計算得來,因此若從總分類個數(shù)R×C中減去 R+C,則將總和重復減去了,因此要補 1 個自由度回來,所以最終獨立性檢驗的自由度表示為:上述例題最終計算得:或者:這兩個公式的計算結(jié)果有一點點差異,這完全是計算誤差即四舍五入引起的。df = (3-1)(2-1) = 2,而20.05(2) = 5.99,
15、所以在0.05的顯著性水平下,拒絕零假設,即可以認為性別與課外活動內(nèi)容有關(guān)聯(lián),或者說男女生在選擇課外活動上存在顯著的差異。 四格表獨立性檢驗對于兩個都只作兩項分類的因素,它們的數(shù)據(jù)整理成的是一個 2×2 的表格,一般稱為四格表,對于四格表教材里給出了一個更簡潔的公式:公式中,a、b、c、d的規(guī)定要求是a和d必須呈對角線。該公式的含義非常明確,即當對角線單元格中的次數(shù)差異越大時,卡方檢驗越容易顯著,自然也就意味著兩變量間的關(guān)聯(lián)越密切。掌握了一般的R*C表計算后,四格表計算相對簡單地多。這里不再展開。注意,在獨立性檢驗中,同樣存在某格的理論次數(shù)小于等于 5 的問題,如同擬合性檢
16、驗中一樣,我們?nèi)匀唤ㄗh在實際中最好增大樣本的容量,盡量減少出現(xiàn)這種不大服從理論分布的情況。此外,在獨立性檢驗中,若拒絕了零假設,即各因素之間有關(guān)聯(lián),則如同方差分析中僅判定了存在交互作用一樣,只是一個總體的結(jié)果,并不能回答具體關(guān)聯(lián)的形式的問題。如果各因素之間獨立,則到此為止,若各因素間有關(guān)聯(lián),還應該作進一步的分析,具體搞清楚各變量的次數(shù)間是如何關(guān)聯(lián)的。對此卡方檢驗有一些辦法,但不如參數(shù)檢驗中那樣嚴格??ǚ姜毩⑿詸z驗一般也僅限于兩變量間的關(guān)聯(lián)考察,對于多個名義型變量,往往采用分拆一個變量分別進行獨立性檢驗的辦法,然后試圖整合多次檢驗的結(jié)果。這種做法就顯得更牽強一些。 品質(zhì)相關(guān)卡方檢驗既然
17、是用來解決變量間關(guān)聯(lián)性的,則也可以構(gòu)造和積差相關(guān)或等級相關(guān)系數(shù)一樣的相關(guān)程度的度量,稱為品質(zhì)相關(guān)。常用的品質(zhì)相關(guān)有以下幾種:1、相關(guān)系數(shù)相關(guān)只適用于四格表,它要求兩變量是不同性質(zhì)的。相關(guān)的公式實際上是根據(jù)四格表的卡方值變換而來的,通過變換使得其取值大約在正負1之間,這樣便于聯(lián)系一般的相關(guān)系數(shù)的含義進行解釋。在卡方檢驗一節(jié),我們曾講到卡方值的大小反映了實際次數(shù)與理論次數(shù)之間差異的大小,而獨立性檢驗中的理論次數(shù)是根據(jù)兩變量獨立的假設計算出來的,因此卡方值的大小也就反映了兩變量距獨立有多遠,離獨立越遠就越相關(guān),因此卡方值本身就反映了兩變量間相關(guān)的程度。相關(guān)的計算公式如下:相關(guān)系數(shù)依分子的正負號可取正負值。不過,所有的品質(zhì)相關(guān)幾乎都不是獨立構(gòu)造的,而都是對卡方檢驗中卡方統(tǒng)計量的變換。因此實際上,只要進行了卡方獨立性檢驗,則這兩步過程就一次解決了。計算品質(zhì)相關(guān)系數(shù)只是為了更好地理解兩變量間關(guān)系的密切程度。2、列聯(lián)相關(guān)C系數(shù)列聯(lián)相關(guān)實際上是將相關(guān)的適用情況從四格表擴展到一般的列聯(lián)表。列聯(lián)相關(guān)公式的來歷也基本上與相關(guān)相同。列聯(lián)相關(guān)公式為:該系數(shù)的取值也在0和1之間,不會取到1。與使用相關(guān)一樣,使用列聯(lián)相關(guān)之前,最好先檢驗兩變量是否相關(guān),只有兩變量相關(guān)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司組織祈?;顒臃桨?/a>
- 公司歡送會策劃方案
- 公司水療團建活動方案
- 公司聯(lián)誼旅游活動方案
- 公司福利回饋活動方案
- 公司端午尋寶活動方案
- 公司結(jié)對幫扶活動方案
- 公司禮盒自營活動方案
- 公司消夏晚會策劃方案
- 公司文藝宣傳活動方案
- 柱上斷路器培訓
- 設備物資管理培訓
- 2025年算力電力協(xié)同:思考與探索白皮書
- 公司事故隱患內(nèi)部報告獎勵制度
- 2025年醫(yī)聯(lián)體合作協(xié)議標準范本
- 2025年中考英語作文預測及滿分范文11篇
- 員工接觸勞務合同范例
- 2025屆江蘇省蘇州地區(qū)卷三年級數(shù)學第二學期期末質(zhì)量檢測模擬試題含解析
- 宣傳片視頻拍攝投標方案(技術(shù)方案)
- 德勤-問題解決策略與實踐-客戶服務培訓手冊課件
- 2025年山東產(chǎn)權(quán)交易集團有限公司招聘筆試參考題庫含答案解析
評論
0/150
提交評論