北郵考研概率論與數(shù)理統(tǒng)計(jì)62數(shù)據(jù)表示-直方圖等.ppt_第1頁(yè)
北郵考研概率論與數(shù)理統(tǒng)計(jì)62數(shù)據(jù)表示-直方圖等.ppt_第2頁(yè)
北郵考研概率論與數(shù)理統(tǒng)計(jì)62數(shù)據(jù)表示-直方圖等.ppt_第3頁(yè)
北郵考研概率論與數(shù)理統(tǒng)計(jì)62數(shù)據(jù)表示-直方圖等.ppt_第4頁(yè)
北郵考研概率論與數(shù)理統(tǒng)計(jì)62數(shù)據(jù)表示-直方圖等.ppt_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一 經(jīng)驗(yàn)分布函數(shù)二 頻數(shù)頻率分布表三 樣本數(shù)據(jù)的圖形顯示 6 2樣本數(shù)據(jù)的整理與顯示 6 2 1經(jīng)驗(yàn)分布函數(shù) 設(shè)x1 x2 xn是取自總體分布函數(shù)為F x 的樣本 若將樣本觀測(cè)值由小到大進(jìn)行排列 為x 1 x 2 x n 則稱x 1 x 2 x n 為有序樣本 用有序樣本定義如下函數(shù) 則Fn x 是一非減右連續(xù)函數(shù) 且滿足 Fn 0和Fn 1 可見(jiàn) Fn x 是一個(gè)分布函數(shù) 稱Fn x 為經(jīng)驗(yàn)分布函數(shù) Fn x 的圖形是累積頻率曲線 它是跳躍上升的一條階梯曲線 若觀測(cè)值不重復(fù) 躍度為1 n 若重復(fù) 按1 n的倍數(shù)跳躍上升 當(dāng)時(shí) 依概率收斂于總體的分布函數(shù) 例1某食品廠生產(chǎn)聽(tīng)裝飲料 現(xiàn)從生產(chǎn)線上隨機(jī)抽取5聽(tīng)飲料 稱得其凈重 單位 克 351347355344351 x 1 344 x 2 347 x 3 351 x 4 351 x 5 355 這是一個(gè)容量為5的樣本 經(jīng)排序可得有序樣本 其經(jīng)驗(yàn)分布函數(shù)為 0 x 3440 2 344 x 347Fn x 0 4 347 x 3510 8 351 x 3551 x 355 由伯努里大數(shù)定律 只要n相當(dāng)大 Fn x 依概率收斂于F x 更深刻的結(jié)果也是存在的 這就是格里紋科定理 定理1 格里紋科定理 格里紋科 1933 定理表明 當(dāng)n相當(dāng)大時(shí) 經(jīng)驗(yàn)分布函數(shù)是總體分布函數(shù)F x 的一個(gè)良好的近似 經(jīng)典的統(tǒng)計(jì)學(xué)中一切統(tǒng)計(jì)推斷都以樣本為依據(jù) 其理由就在于此 6 2 2頻數(shù) 頻率分布表 樣本數(shù)據(jù)的整理是統(tǒng)計(jì)研究的基礎(chǔ) 整理數(shù)據(jù)的最常用方法之一是給出其頻數(shù)分布表或頻率分布表 例2為研究某廠工人生產(chǎn)某種產(chǎn)品的能力 我們隨機(jī)調(diào)查了20位工人某天生產(chǎn)的該種產(chǎn)品的數(shù)量 數(shù)據(jù)如下 1 對(duì)樣本進(jìn)行分組 作為一般性的原則 組數(shù)通常在5 20個(gè) 對(duì)容量較小的樣本 2 確定每組組距 近似公式為組距d 最大觀測(cè)值 最小觀測(cè)值 組數(shù) 3 確定每組組限 各組區(qū)間端點(diǎn)為a0 a1 a0 d a2 a0 2d ak a0 kd 形成如下的分組區(qū)間 a0 a1 a1 a2 ak 1 ak 對(duì)這20個(gè)數(shù)據(jù) 樣本 進(jìn)行整理 具體步驟如下 其中a0略小于最小觀測(cè)值 ak略大于最大觀測(cè)值 4 統(tǒng)計(jì)樣本數(shù)據(jù)落入每個(gè)區(qū)間的個(gè)數(shù) 頻數(shù) 并列出其頻數(shù)頻率分布表 表1例2的頻數(shù)頻率分布表 組序分組區(qū)間組中值頻數(shù)頻率累計(jì)頻率 1 147 157 15240 20202 157 167 16280 40603 167 177 17250 25854 177 187 18220 10955 187 197 19210 05100合計(jì)201 6 2 3樣本數(shù)據(jù)的圖形顯示 一 直方圖 直方圖是頻數(shù)分布的圖形表示 它的橫坐標(biāo)表示所關(guān)心變量的取值區(qū)間 縱坐標(biāo)有三種表示方法 頻數(shù) 頻率 最準(zhǔn)確的是頻率 組距 它可使得諸長(zhǎng)條矩形面積和為1 凡此三種直方圖的差別僅在于縱軸刻度的選擇 直方圖本身并無(wú)變化 當(dāng)取得一組樣本值后 一般先根據(jù)樣本取值作頻率直方圖 對(duì)總體的分布情況有一個(gè)幾何直觀上的粗略了解 然后再進(jìn)一步分析 10 直方圖 11 12 13 例3某工廠用自動(dòng)包裝機(jī)包裝產(chǎn)品 為了考察每袋產(chǎn)品重量的波動(dòng)情況 選取100袋產(chǎn)品測(cè)得其重量如下 單位 kg 根據(jù)測(cè)得的數(shù)據(jù)作出頻率直方圖 97 894 698 9100 999 8102 797 995 599 0101 199 6102 997 795 799 5101 299 9103 198 295 899 1101 3100 0103 898 196 099 0101 4100 198 396 399 2101 5100 2104 598 596 699 3101 4100 397 898 496 799 4101 1100 496 999 5101 0100 198 597 099 1101 2100 298 097 299 2101 6100 298 197 499 0101 6100 498 197 599 4101 8100 598 797 199 3102 1100 398 899 998 9102 0100 298 999 7100 6102 1100 498 899 6100 6102 3100 198 699 7100 7102 498 899 8102 2100 899 8100 9 14 15 16 把每一個(gè)數(shù)值分為兩部分 前面一部分 百位和十位 稱為莖 后面部分 個(gè)位 稱為葉 然后畫(huà)一條豎線 在豎線的左側(cè)寫(xiě)上莖 右側(cè)寫(xiě)上葉 就形成了莖葉圖 如 二 莖葉圖 數(shù)值分開(kāi)莖和葉112 11 2 11和2 例4某公司對(duì)應(yīng)聘人員進(jìn)行能力測(cè)試 測(cè)試成績(jī)總分為150分 下面是50位應(yīng)聘人員的測(cè)試成績(jī) 已經(jīng)過(guò)排序 我們用這批數(shù)據(jù)給出一個(gè)莖葉圖 見(jiàn)下頁(yè) 圖3測(cè)試成績(jī)的莖葉圖 莖葉圖的外觀很像橫放的直方圖 但莖葉圖中葉增加了具體的數(shù)值 使我們對(duì)數(shù)據(jù)的具體取值一目了然 從而保留了數(shù)據(jù)中全部的信息 在要比較兩組樣本時(shí) 可畫(huà)出它們的背靠背的莖葉圖 見(jiàn)附錄 注意 莖葉圖保留數(shù)據(jù)中全部信息 當(dāng)樣本量較大 數(shù)據(jù)很分散 橫跨二 三個(gè)數(shù)量級(jí)時(shí) 莖葉圖并不適用 三 箱線圖 樣本分位數(shù)與樣本中位數(shù) 更一般地 樣本p分位數(shù)mp可如下定義 通常 樣本均值在概括數(shù)據(jù)方面具有一定的優(yōu)勢(shì) 但當(dāng)數(shù)據(jù)中含有極端值時(shí) 使用中位數(shù)比使用均值更好 中位數(shù)的這種抗干擾性在統(tǒng)計(jì)中稱為具有穩(wěn)健性 設(shè)x 1 x n 是有序樣本 則樣本中位數(shù)m0 5定義為 注 次序統(tǒng)計(jì)量 設(shè)x1 x2 xn是取自總體X的樣本 x i 稱為該樣本的第i個(gè)次序統(tǒng)計(jì)量 它的取值是將樣本觀測(cè)值由小到大排列后得到的第i個(gè)觀測(cè)值 其中x 1 min x1 x2 xn 稱為該樣本的最小次序統(tǒng)計(jì)量 稱x n max x1 x2 xn 為該樣本的最大次序統(tǒng)計(jì)量 樣本中位數(shù)是次序統(tǒng)計(jì)量的函數(shù) 五數(shù)概括與箱線圖 次序統(tǒng)計(jì)量的應(yīng)用之一是五數(shù)概括與箱線圖 在得到有序樣本后 容易計(jì)算如下五個(gè)值 最小觀測(cè)值xmin x 1 最大觀測(cè)值xmax x n 中位數(shù)m0 5 第一4分位數(shù)Q1 m0 25 第三4分位數(shù)Q3 m0 75 五數(shù)概括是指用這五個(gè)數(shù) xmin Q1 m0 5 Q3 xmax 來(lái)大致描述一批數(shù)據(jù)的輪廓 附錄 1 背靠背莖葉圖舉例 2 次序統(tǒng)計(jì)量 3 一本關(guān)于 統(tǒng)計(jì)圖 的好書(shū) 現(xiàn)代統(tǒng)計(jì)圖形 謝益輝http yihui name cn publication 4 箱線圖舉例 1 背靠背莖葉圖舉例 例下面的數(shù)據(jù)是某廠兩個(gè)車間某天各40名員工生產(chǎn)的產(chǎn)品數(shù)量 為對(duì)其進(jìn)行比較 我們將這些數(shù)據(jù)放到一個(gè)背靠背莖葉圖上 甲車間乙車間6205687775554211667788877664421722455556668898766532801133344466778732109223585300107 兩車間產(chǎn)量的背靠背莖葉圖 在上圖中 莖在中間 左邊表示甲車間的數(shù)據(jù) 右邊表示乙車間的數(shù)據(jù) 從莖葉圖可以看出 甲車間員工的產(chǎn)量偏于上方 而乙車間員工的產(chǎn)量大多位于中間 乙車間的平均產(chǎn)量要高于甲車間 乙車間各員工的產(chǎn)量比較集中 而甲車間員工的產(chǎn)量則比較分散 2 次序統(tǒng)計(jì)量及其分布 設(shè)x1 x2 xn是取自總體X的樣本 x i 稱為該樣本的第i個(gè)次序統(tǒng)計(jì)量 它的取值是將樣本觀測(cè)值由小到大排列后得到的第i個(gè)觀測(cè)值 其中x 1 min x1 x2 xn 稱為該樣本的最小次序統(tǒng)計(jì)量 稱x n max x1 x2 xn 為該樣本的最大次序統(tǒng)計(jì)量 樣本中位數(shù)也是一個(gè)很常見(jiàn)的統(tǒng)計(jì)量 它也是次序統(tǒng)計(jì)量的函數(shù) 例設(shè)總體X的分布為僅取0 1 2的離散均勻分布 分布列為 我們知道 在一個(gè)樣本中 x1 x2 xn是獨(dú)立同分布的 而次序統(tǒng)計(jì)量x 1 x 2 x n 則既不獨(dú)立 分布也不相同 看下例 現(xiàn)從中抽取容量為3的樣本 其一切可能取值有33 27種 表5 3 6列出了這些值 由此 我們可以清楚地看到這三個(gè)次序統(tǒng)計(jì)量的分布是不相同的 可給出的x 1 x 2 x 3 分布列如下 進(jìn)一步 我們可以給出兩個(gè)次序統(tǒng)計(jì)量的聯(lián)合分布 如 x 1 和x 2 的聯(lián)合分布列為 因?yàn)镻 x 1 0 x 2 0 7 27 二者不等 由此可看出x 1 和x 2 是不獨(dú)立的 而P x 1 0 P x 2 0 19 27 7 27 單個(gè)次序統(tǒng)計(jì)量的分布 定理設(shè)總體X的密度函數(shù)為p x 分布函數(shù)為F x x1 x2 xn為樣本 則第k個(gè)次序統(tǒng)計(jì)量x k 的密度函數(shù)為 3 多個(gè)次序統(tǒng)計(jì)量的聯(lián)合分布 對(duì)任意多個(gè)次序統(tǒng)計(jì)量可給出其聯(lián)合分布 以兩個(gè)為例說(shuō)明 定理在定理5 3 5的記號(hào)下 次序統(tǒng)計(jì)量 x i x j i j 的聯(lián)合分布密度函數(shù)為 次序統(tǒng)計(jì)量的函數(shù)在實(shí)際中經(jīng)常用到 如樣本極差Rn x n x 1 樣本中程 x n x 1 2 樣本極差是一個(gè)很常用的統(tǒng)計(jì)量 其分布只在很少幾種場(chǎng)合可用初等函數(shù)表示 令R x n x 1 由R 0 可以推出0 x 1 x n R 1 R 則 例設(shè)總體分布為U 0 1 x1 x2 xn為樣本 則 x n x 1 的聯(lián)合密度函數(shù)為 p1 n y z n n 1 z y n 2 0 y z 1 這正是參數(shù)為 n 1 2 的貝塔分布 樣本分位數(shù)與樣本中位數(shù) 樣本中位數(shù)也是一個(gè)很常見(jiàn)的統(tǒng)計(jì)量 它也是次序統(tǒng)計(jì)量的函數(shù) 通常如下定義 更一般地 樣本p分位數(shù)mp可如下定義 定理設(shè)總體密度函數(shù)為p x xp為其p分位數(shù) p x 在xp處連續(xù)且p xp 0 則 特別 對(duì)樣本中位數(shù) 當(dāng)n 時(shí)近似地有 當(dāng)n 時(shí)樣本p分位數(shù)mp的漸近分布為 例設(shè)總體為柯西分布 密度函數(shù)為 p x 1 1 x 2 x 通常 樣本均值在概括數(shù)據(jù)方面具有一定的優(yōu)勢(shì) 但當(dāng)數(shù)據(jù)中含有極端值時(shí) 使用中位數(shù)比使用均值更好 中位數(shù)的這種抗干擾性在統(tǒng)計(jì)中稱為具有穩(wěn)健性 不難看出 是該總體的中位數(shù) 即x0 5 設(shè)x1 x2 xn是來(lái)自該總體的樣本 當(dāng)樣本量n較大時(shí) 樣本中位數(shù)m0 5的漸近分布為 m0 5 AN 2 4n 五數(shù)概括與箱線圖 次序統(tǒng)計(jì)量的應(yīng)用之一是五數(shù)概括與箱線圖 在得到有序樣本后 容易計(jì)算如下五個(gè)值 最小觀測(cè)值xmin x 1 最大觀測(cè)值xmax x n 中位數(shù)m0 5 第一4分位數(shù)Q1 m0 25 第三4分位數(shù)Q3 m0 75 所謂五數(shù)概括就是指用這五個(gè)數(shù) xmin Q1 m0 5 Q3 xmax 來(lái)大致描述一批數(shù)據(jù)的輪廓 3 一本關(guān)于 統(tǒng)計(jì)圖 的好書(shū) 現(xiàn)代統(tǒng)計(jì)圖形 謝益輝http yihui name cn publication 次序統(tǒng)計(jì)量的應(yīng)用之一是五數(shù)概括與箱線圖 在得到有序樣本后 容易計(jì)算如下五個(gè)值 最小觀測(cè)值xmin x 1 中位數(shù)m0 5 第一4分位數(shù)Q1 m0 25 第三4分位數(shù)Q3 m0 75 最大觀測(cè)值xmax x n 所謂五數(shù)概括就是指用這五個(gè)數(shù) xmin Q1 m0 5 Q3 xmax來(lái)大致描述一批數(shù)據(jù)的輪廓 4 五數(shù)概括與箱線圖 下表是某廠160名銷售人

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論