資料審核與初步統計PPT課件_第1頁
資料審核與初步統計PPT課件_第2頁
資料審核與初步統計PPT課件_第3頁
資料審核與初步統計PPT課件_第4頁
資料審核與初步統計PPT課件_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十二章調查資料的審核與整理 資料的審核資料的整理統計表 第一節(jié)資料的審核 資料的審核資料的審核是資料處理的第一步工作 它是指研究者對所收集的原始資料 主要是問卷 進行初步的審閱 校正錯填 誤填的答案 剔出亂填 空白和嚴重缺答的廢卷 其目的是使得原始資料具有較好的準確性 完整性和真實性 從而為后續(xù)資料整理錄人與統計分析工作打下較好的基礎 資料的審核工作包含兩方面的內容 一是檢查出問卷資料中的問題 二是重新向被調查者核實 資料的審核工作有兩種不同的做法 邊收集邊審核集中審核 第二節(jié)資料的整理 一 資料整理資料整理是根據研究目的將經過審核的資料進行分類匯總 使資料更加條理化和系統化 為進一步深入分析提供條件 二 定性資料的整理整理筆記與建立檔案資料的編碼編碼類型 開放式編碼 軸心式編碼選擇式編碼 三 定量資料的整理資料的編碼 見下表一 資料的錄入 見下表二 數據清理有效范圍清理邏輯一致性清理數據質量抽查 表一 06 表二 第三節(jié)統計表 一 統計表的結構從外表形式上看 統計表由總標題 橫行標題 縱欄標題 指標數值四部分組成 總標題是表的名稱 橫行標題在表的左端 它代表所說明的對象 縱欄標題在表的上方 它代表統計指標的名稱 它們分別對橫行或縱欄內的統計值作出說明 二 統計表的種類 1 簡單表某村歷年人均收入 2 簡單分組表是總體僅按一個標志進行分組 即運用簡單分組形成的表格 某村各戶年人均收入統計表 3 復合分組表是總體按兩個以上標志進行層疊分組的統計表 它又稱為交互分類表 它能表現兩個分組標志之間的關系 某村家庭規(guī)模和經濟情況統計表 第十三章資料的統計分析 統計分析方法是一種定量分析 它是進行科學預測的重要方法 統計分析的特點 1 統計分析要以定性分析為基礎 2 統計分析方法必須和其他分析結合運用 統計分析有一套專門的方法和技術 觀察 調查 實驗 12229986489 如何使用各種統計表與統計圖來描述一組數據的分組與分布情況 如何通過一組數據計算一些特征數 簡縮數據 進一步顯示與描述一組數據的全貌 集中情況 分散情況 分布特征 數據如何分組 收集方法 原始數據 表達形式 作用 分析過程 圖示 主要內容 單變量描述統計單變量推論統計相關與回歸分析雙變量統計分析多變量統計分析 第一節(jié) 單變量描述統計 由一種變量的全部分數或觀察值組成的一組或一批數據稱為一個分布 單變量數據的描述統計就是對其分布情況進行說明 單變量描述統計包括集中量數分析 離散量數分析 一 頻數分布與頻率分布 頻數分布 FrequencyDistribution 就是指一組數據中取不同值的個案的次數分布情況 它一般以頻數分布表的形式表達 頻率分布 percentagesdistribution 是一組數據中不同取值的頻數相對于總數的比率分布情況 常以百分比的形式來表達 編制頻數分布表 畫出頻數分布圖 某中學初三甲班60人期中英語考試分數 案例 某中學初三甲班60人英語期中考試成績累積頻數 頻率 分布表 二 集中量數分析 集中量數就是代表數據分布集中趨勢的量數 集中量數分析指的是用一個典型值或代表值來反映一組數據的一般水平 或者說反映這組數據向這個典型值集中的情況 最常見的集中量數有算術平均數 簡稱平均數 也稱為均值 眾數和中位數三種 中位數 Md 中位數 Md 又稱中數 是頻數分布上50 處的數值 即將觀察總數一分為二的變量值 在這個值的兩邊各有相同個數的數據 當數據的個數為偶數時 取分布50 最中心 處的兩個數據的平均數作為中數 中位數 Md 中位數 Md 又稱中數 是頻數分布上50 處的數值 即將觀察總數一分為二的變量值 在這個值的兩邊各有相同個數的數據 當數據的個數為偶數時 取分布50 最中心 處的兩個數據的平均數作為中數 幾何平均數 Mg 是n個數據的連乘積開n次方的根 常用作速率的集中量數 如學齡兒童人數的增加率 學校經費的增加率 閱讀能力的進步率等 Mg 算術平均數 通常稱平均數 又稱均數或均值 英文為Mean 故以M表示 如果是由變量X計算得來的就記為 讀X杠 現在一般都以表示樣本的平均數 以U表示總體的平均數 算術平均數就是各個變量值相加求和再除以變量的總次數 算術平均數的計算方法 1 用原始數據計算平均數 當一組數據個數不多時 可直接用原始數據來計算 如某實驗小組10人的實驗成績?yōu)?1 13 15 16 16 16 17 18 18 20 其平均數為 16 2 用頻數分布表求平均數 如果樣本的數據很多 達到數十個或數百個 則需編制頻數分布表 用頻數分布表求平均數 Xc為各組的組中值 f為各組的頻數 N為總次數 某中學初三甲班60人英語期中考試成績平均數 標準差計算表 73 5 73 5 73 5 73 5 73 5 中位術與平均數的比較 1 平均數要求計算所有的數值 而中位數只用到數值的相對位置 一般說來平均數利用了更多的信息 更全面和準確 2 平均數容易受到極端值的影響 中位數則不會受到這種影響 平均數是一種比中位數更為穩(wěn)定的量度 它隨樣本的變化比較少 3 當資料是定序 定類測量或者是有開口組的定居測量時 中位數能夠擬補不足 三 離散量數分析 離散 中 量數分析指的是用一個特別的數值來反映一組數據相互之間的離散 中 程度 即各組數據相對于平均數的差異程度 離中程度 差異程度小 平均數的代表性高 差異程度大 代表性低 它與集中量數一起分別從兩個不同的側面描述和揭示一組數據的分布情況 共同反映出資料分布的全面特征 同時它還對現各集中量數的代表性做出補充說明 常見的離散量數統計量有全距 標準差 異眾比率 和四分位差 示例 某三個班各選5名同學參加測試 他們的成績分別如下中文系 78 79 80 81 82X 80數學系 65 72 80 88 95X 80外語系 35 78 89 98 100X 80如果僅以集中量數來衡量 這三個隊的水平一樣高 但是很明顯 這80分對中文系隊的同學代表性最高 而對外語系的同學代表性最低 1 全距 R 全距也叫極差 它是一組數據中 最大值與最小值之差 它是表示數據分布離散程度最簡單的方式 即一組數據中最大數與最小數差 故稱兩極差 R Xmax Xmin 當數據較多時 應用頻數分布表求全距 其方法為 最大組與最小組的組中值之差或最大組上限與最小組下限之差 R Xcmax Xcmin R Umax Lmin R 98 最大值 43 最小值 55 1 求全距 步驟 視數據資料的性質和數據多少而定 組數不宜太多 如太多不能明顯表示出分布的主要趨勢 但也不宜太少 太少則把很多不同事實歸于一組 其分配的主要特征將因此而被蒙蔽 2 定組數 分組參考表 組距就是每一組的間距 即每組所包含的單位 組距以 i 表示 3 求組距 組距i 9 3 i 本例組數為6 組距 一般地 為計算方便 組距取10為宜 組限是分組的界限 其底數為下限 L 其頂數為上限 U 組限的寫法有很多 有的用上下限表示 有的用組中值表示 如以 10 為組距 一般多用首尾相接 間隔為10的形式表示 即60 70 70 80 80 90 其中每組上限即為下一組的下限 通常將組下限包含在本組中 而不包含在上限所在的組 因為分組的實際界限應是這一組的精確界限 如 80 90 這一組的精確界限為 79 5 89 4999 4 定組限 5 求組中值 組中值XC 精確下限L 如以10為組距 則 80 90 一組的組中值為 組中值 79 5 84 5 某中學初三甲班60人英語期中考試成績頻數分布表 6 歸類劃記 2 標準差 標準差 一組數據對其平均數的偏差平方的算術平均數的平方根 一般以S 或來表示 式中S 樣本統計值 為標準差 X為各學生的成績分數 為學生成績的平均數 x為各學生成績分數的離差 n為學生 數據 數 S 例1 某校三個系各選5名同學 參加智力競賽 他們的成績分別如下 中文系 7879808182數學系 6572808895英語系 35788998100平均成績 80標準差 一組數據對其平均數的偏差平方的算術平均數的平方根 S 中文系 1 414 分 S 數學系 10 8 分 S 英語系 23 8 分 S 例2 例 有某生三次數學考試的成績分別為70 57 45 三次考試的班平均為70 55 42 標準差分別為8 4 5 如何看待該生的三次考試成績的地位 如果僅從原始分數看 肯定認為第一次最好 其實不然 要計算出各次的標準分數 才能說明問題 Z1 70 70 8 0Z2 57 55 4 0 5Z3 45 42 5 0 6這說明 原始分數為70 其位置正在平均線上 而原始分數為57的 其位置在平均線上0 5處 而原始分數為45的 其位置在平均線上0 6處 3 異從比率是指非眾數的次數與總體內全部總體單位的比率 異眾比率越小 眾數的代表性越大 4 四分位差把一組數據按大小排列成序列 然后分成四個數據數目相等的段落 各段落分界點上的數 叫四分位數 即每組占25 舍去資料中數值最高的25 和最低的25 僅就中間50 數據求其量數作為離中量數 就是四分位差 四分位差之間的間距越小 中位數的代表性越大 1 對定序類資料計算四分位差 Q Q3 Q1 2 對定距類資料計算四分位差 使用說明 眾數與異眾比率配合 中位數與四分位差配合 平均數與標準差配合 四 相對差異 離散或離中 量數 1 離散系數離散系數是一種相對的離散量數統計量 它使我們能夠對同一總體中的兩種不同的離散量數進行比較 或者對兩個不同總體中的同一離散量數進行比較 離散系數的定義是 標準差與平均數的比值 用百分比表示 CV S XCV 100CV 100 例1 一項調查得到下列結果 某市人均平均收入為92元 標準差為17元 人均住房面積7 5平方米 標準差為1 8平方米 試比較該市人均收入和人均住房情況哪一個差異程度比較大 解 人均收入的離散系數為CV S 100 18 5 人均住房面積的離散系數為CV 1 8 7 5 100 24 例2 對廣州和武漢兩地居民生活質量調查發(fā)現 廣州居民平均收入為680元 標準差為120元 武漢居民平均收入為360元 標準差為80元 問廣州居民相互之間的差異程度 與武漢居民相互之間在收入上的差異程度哪一個更大一些 解 廣州居民收入的離散系數為CV 120 680 100 17 6 武漢居民收入的離散系數為CV 80 360 100 22 2 五 標準分數 是用來描述變量分布中某一分數在整個分布中所處的位置 它是以標準差為單位的相對量數 其計算公式為 z 從公式可以得知標準分數是一個分數與其平均數之差除以標準差所得的商 平均數以上各點的分數為正值 平均數以下各點的分數為負值 平均數的分數為零 例如 某班語文平均考試成績?yōu)?5分 標準差為8 5分 甲生得92分 乙生得70分 問甲乙二生的分數各為多少 Z甲 Z乙 2 59 據正態(tài)分布理論可知的取值范圍在 3到 3之間 為了使標準分數變成正值并減少小數位數 以便于比較 我們可將標準分數進一步經線性轉換成標準分數 其計算公式為 T 10Z 50 目前 我國各類學校招考新生和對學生進行學習成績考查評定的主要手段是考試 而對考試成績的評分一般是用百分制來表示 并用各科成績相加按總分來決定被試者的優(yōu)劣取舍 這種做法開來似乎公平 實際上很不合理 因為各科試題的難易程度不同 造成評分標準的寬嚴不一 因此各科考試成績的統計量數 如平均數 標準差也不相等 我們不能說語文的考分80分等價于數學的考分的80分 也不能說英語考分75分等價于物理的考分75分 在這種情況下 把考生的各科考分等量齊觀地相加起來 憑個考生的總分來決定優(yōu)劣取舍 顯然是十分不合理的 科學的方法 就是把考生是各科分數 經過一個標準化的轉化過程 把每個考生的各科分數變成標準分數 然后再進行相加和比較 甲乙兩位考生七科分數的標準化表 練習 1 根據各小組調查的問卷 先進行數據清理工作 然后對某些問題進行單變量的統計描述 繪制頻數分布表 2 在一個社區(qū)診所 10天內來排隊看病的人數分別是52 68 39 47 57 32 75 25 31和93 求算術平均數和中位數 以及標準差 第二節(jié)單變量統計推論 統計推斷 是指根據樣本所提供的詳細 運用概率的理論進行分析 論證 在一定的可靠程度上 對總體分布的特征進行估計 推測 具體內容包括 一 總體參數的估計 二 假設檢驗 一 區(qū)間估計 以樣本統計量的抽樣分布為理論依據 按一定概率要求 由樣本統計量的值來估計總體參數的值所在的范圍 叫做總體參數的區(qū)間估計 1 平均數抽樣分布與總體均數的區(qū)間估計 從正態(tài)分布中隨機抽取容量為的一切可能樣本的平均數抽樣分布是以總體平均數為中心的正態(tài)分布 當總體標準差已知時 一切可能樣本平均數與總體平均數的離差統計量呈標準正態(tài)分布 區(qū)間估計 區(qū)間估計的實質就是在一定的可信度 置信度 下 用樣本統計值的某個范圍 置信區(qū)間 來估價總體的參數值 范圍的大小反映的是這種估計的精確性問題 而可信度高低反映的則是這種估計的可靠性或把握性的問題 其中 表示樣本平均數的標準分數 表示樣本平均數 表示總體平均數 表示平均數標準誤 課堂練習題例 調查某廠職工的工資狀況 隨機抽取900名工人做樣本 調查得到他們的月平均工資為186元 標準差為42元 求95 的置信度下 全廠職工的月平均工資的置信取間是多少 解 將調查資料代入總體均值的區(qū)間估計公式得總體均值的置信區(qū)間為183 26 188 74當將置信度提高到99 總體的置信區(qū)間為182 39 189 61元 隨著可靠性的提高 所估計的區(qū)間擴大了 但估計的精確性就相應地降低了 例 從某工廠隨機抽取400名工人進行調查 結果表明女工的比例為20 現在要求在90 的置信度下 估計全廠工人中女工比例的置信區(qū)間 解 帶入總體百分數的區(qū)間估計公式得16 7 23 小結 要對總體均數進行區(qū)間估計 即在一定的可靠程度上求出總體均數的置信區(qū)間的上下限 首先 要知道與所要估計的參數相對應的樣本統計量的值 以及樣本統計量的抽樣分布 其次 要求出該統計量的標準誤 最后 要明確在多大的可靠度上對總體均數作估計 再通過查抽樣分布概率分布表 找出與該可靠度所對應的該分布在橫軸上記分的臨界值 從而計算出總體均數的置信區(qū)間 二 假設檢驗 利用樣本信息 根據一定的概率 對總體參數或分布的某一假設作出拒絕或保留的決斷 稱為假設檢驗 當對某一總體參數進行假設檢驗時 首先從該總體中隨機抽取一個樣本 然后計算統計量的值 并根據經驗對相應的總體參數提出一個假設值 這個假設是說這個樣本統計量的值是由這個假設總體參數值的一個隨機樣本 即這個樣本來源于這個總體 而樣本統計量的值與總體參數值之間的差異是由抽樣誤差所致 根據這一假設 可以認為像這樣的一切可能樣本統計量的值應當以總體參數值 假設的 為中心形成該統計量的一個抽樣分布 如果這個隨機樣本統計量的值在其抽樣分布上出現的概率較大時 就得保留這個假設 即承認這個樣本來自這個總體 而樣本統計量的值與總體參數值之間的差異是由抽樣誤差所致 此時稱樣本統計量的總體參數與假設的總體參數差異不顯著 否則就拒絕這個假設 否認這個樣本來自這個總體 樣本統計量的總體參數與總體參數值之間有顯著差異 假設檢驗先對總體的某一參數作出假設 然后用樣本的統計量去進行驗證 以決定假設是否為總體做接受 依據的概率論中的小概率原理 即 小概率事件在一次觀察中不可能出現 的原理 步驟 1 建立虛無假設和研究假設 通常是將原假設作為虛無假設 2 根據需要選擇適當的顯著性水平 即概率的大小 通常有 0 01等 3 根據樣本數據計算出統計值 并根據顯著性水平查出對應的臨界值 4 將臨界值與統計值進行比較 若臨界值大于統計值的絕對值 則接受虛無假設 反之 則接受研究假設 例 某單位職工上月平均收入為210元 標準差為15元 問該單位職工本月平均收入與上月相比是否有變化 解 建立虛無假設 H0 和研究假設H1H0 210H1 210選擇顯著性水平a 0 05 帶入樣本數據計算統計值Z 得 6 67 1 96所以拒絕虛無假設 接受研究假設 即從總體上來說 該單位職工月平均收入與上月相比有變化 Z檢驗 Z檢驗是用正態(tài)分布的理論差異發(fā)生的概率 誤差發(fā)生的概率 從而比較兩個平均數 樣本平均數與總體平均數或兩個樣本平均數 的差異是否顯著 Z檢驗適用于大樣本 n 30 Z檢驗可分為單總體檢驗和雙總體檢驗 單總體的檢驗 t檢驗 單總體的檢驗單總體的檢驗是檢驗一個樣本平均數與一已知的總體平均數的差異是否顯著 其檢驗統計量的計算公式為 式中t為檢驗的樣本平均數與已知總體平均數的標準離差分數 df為t分布的自由度 例如 某校初中三年級學生期中英語考試成績平均數為73分 標準差為17分 期終考試后 從該年級學生中隨機抽取20人的英語成績 其平均數為79 4分 問該年級學生的英語成績是否真有進步 第三節(jié)相關與回歸分析 對兩變量間關系進行描述 最常用的是相關量 相關就是指二列變量之間的相互關系 如身高和體重 學習成績與思想品德等的相互關系 類型 單相關 一元回歸與多元相關 多元回歸 回歸又分為線性與非線性回歸 一種是兩列變量的變動方向相同 即一種變量變動時 另一種變量也發(fā)生或大或小的相同方向的變動 如身高與體重的關系 一般來說 身高越高 體重越重 這叫正相關 另一種相關情況是當一種變量變動時另一種變量是或大或小地向相反方向變動 如身體健康狀況與患病率的關系 身體越好 患病率越小 這叫負相關 第三種是零相關 即兩列變量變化方向無一定規(guī)律 一個變量變動時 另一變量的變動方向可能與其相同 也可能與其相反 且相同與相反的機會趨于相等 如人的相貌與其思想品德之間是毫無關系的零相關 第三節(jié)相關與回歸分析 相關系數回歸分析及測定方法 一 相關系數 相關系數是用來表示相關程度的量的指標 用r表示 其數值范圍在 1至 1之間 r的正負號表示變化的方向 正號表示變化的方向相同 是正相關 負號表示變化的方向相反 是負相關 r的絕對值表示兩變量之間的密切程度 強度 絕對值越接近1 表示兩變量之間的關系越密切 越接近0 表示兩變量之間的關系越不密切 如r 1表示完全正相關 r 1表示完全負相關 r 0表示零相關 計算相關系數時 要求二列變量必須成對 而且變量的性質不同亦應計算不同的相關系數 即不同的相關系數適用于不同的變量類型 如皮爾遜積差相關系數適用于兩列等距變量 斯皮爾曼等級相關系數適用于兩列等級變量 點二列相關系數適用于反映一等距變量與另一真正二分變量間相關程度 二列相關系數適用于反映一等距變量與另一人為二分變量間相關程度 積差相關系數 式中 n為成對變量的數目 SX為X變量的標準差 SY為Y變量的標準差 若用原始分數直接求r 其計算公式為 若用標準分數計算r 其公式為 5名大學生身高提高相關系數計算表 不同層次變量的相關測量與檢驗1 定類變量與定類變量消減誤差比例 指的就是知道X的值時所減少的誤差 E1 E2 與總誤差的比 2 定序變量與定序變量3 定類變量 或定序變量 與定距變量4 定距變量和定距變量 二 回歸分析及測定方法 相關系數是一種廣泛使用的描述統計量 用以描述兩個變量間的關系 除此以外 它還具有預測功能 即根據一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論