第7章 數(shù)據(jù)統(tǒng)計推斷及可視化_第1頁
第7章 數(shù)據(jù)統(tǒng)計推斷及可視化_第2頁
第7章 數(shù)據(jù)統(tǒng)計推斷及可視化_第3頁
第7章 數(shù)據(jù)統(tǒng)計推斷及可視化_第4頁
第7章 數(shù)據(jù)統(tǒng)計推斷及可視化_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.1隨機抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.1.1總體和樣本

1.基本概念

2.隨機抽樣7.1.2統(tǒng)計量的分布

1.標準正態(tài)分布

2.學生化t分布7.1隨機抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.1.1總體和樣本

1.基本概念(1)總體:研究對象的全體(2)個體:構(gòu)成總體的每個成員(3)樣本:從總體中抽出的部分個體組成的集合(4)樣本量:樣本中所含個體個數(shù)(5)統(tǒng)計量:不含未知參數(shù)的樣本函數(shù)7.1隨機抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.1.1總體和樣本

2.隨機抽樣(1)隨機數(shù)如生成100個均值為170cm,標準差為9cm的學生身高的正態(tài)分布隨機數(shù)。Inimportnumpyasnpimportpandasaspdnp.random.seed(1)#設(shè)置隨機種子數(shù)以便重復結(jié)果N=100#隨機數(shù)個數(shù)x=np.random.normal(170,9,N);#X~N(170,3^2)=N(170,9)X=pd.DataFrame({'X':x.round(1)});X#形成數(shù)據(jù)框,保留1位小數(shù)7.1隨機抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.1.1總體和樣本

2.隨機抽樣OutX0184.61164.52165.23160.34177.8.....95170.796166.997170.498164.499176.37.1隨機抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.1.1總體和樣本

2.隨機抽樣生成直方圖:7.1隨機抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.1.1總體和樣本

2.隨機抽樣(2)隨機樣本:從上面的正態(tài)總體中隨機抽取樣本量為10的若干樣本(注意,每次抽取的樣本是不一樣的)7.1隨機抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.1.2統(tǒng)計量的分布

1.標準正態(tài)分布若一組數(shù)據(jù)來自正態(tài)分布x

N(μ,σ2),可用正態(tài)化變換將其轉(zhuǎn)換為標準正態(tài)分布:根據(jù)中心極限定理可知,此時樣本的均值服從正態(tài)分布:對樣本均值進行標準化也可得標準正態(tài)分布:7.1隨機抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.1.2統(tǒng)計量的分布2.學生化t分布當總體標準差σ未知時,可用樣本標準差s代替總體標準差,這時樣本均值的標準化變量t服從t分布:可以證明,t值服從t分布,當n趨向無窮大時,t分布近似為標準正態(tài)分布N(0,1)。7.1隨機抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.1.2統(tǒng)計量的分布2.學生化t分布7.1隨機抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.1.2統(tǒng)計量的分布2.學生化t分布7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.1參數(shù)的估計方法

1.點估計2.區(qū)間估計7.2.2假設(shè)檢驗的思想

1.假設(shè)檢驗的基本思想

2.假設(shè)檢驗的基本步驟7.2.3均值比較的t檢驗

1.單樣本均值的t檢驗

【Excel的基本操作】

2.兩樣本均值的t檢驗

【Excel的基本操作】練習題77.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.1參數(shù)的估計方法點估計(pointestimation),用樣本統(tǒng)計量來估計相應的總體參數(shù)樣本均值x→總體均值μ;樣本標準差s→總體標準差σ;樣本比例p→總體比例P

1.點估計參數(shù)的估計方法包括點估計和區(qū)間估計7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.1參數(shù)的估計方法

1.點估計樣本X的各種統(tǒng)計量的點估計值:7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.1參數(shù)的估計方法2.區(qū)間估計區(qū)間估計(intervalestimation)是通過統(tǒng)計推斷找到包括樣本統(tǒng)計量在內(nèi)(有時以統(tǒng)計量為中心)的一個區(qū)間,該區(qū)間被認為以多大概率(也稱可信度或置信度)可能性包含了總體參數(shù)。置信區(qū)間的一般公式:7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.1參數(shù)的估計方法2.區(qū)間估計總體標準差通常未知,可使用t統(tǒng)計量及其分布:運用t分布構(gòu)造置信區(qū)間:7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.1參數(shù)的估計方法2.區(qū)間估計可用scipy包的模塊stats中的erval函數(shù)也可生成置信水平為1-α的置信區(qū)間:erval(b,df,loc,scale)7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.2假設(shè)檢驗的思想假設(shè)檢驗(hypothesistesting),又稱統(tǒng)計假設(shè)檢驗,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計推斷方法。顯著性檢驗是假設(shè)檢驗中最常用的一種方法,也是一種最基本的統(tǒng)計推斷形式常用的假設(shè)檢驗方法有z檢驗、t檢驗、F檢驗和方差分析等7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.2假設(shè)檢驗的思想1.假設(shè)檢驗的基本思想“小概率事件”原理,其統(tǒng)計推斷方法是帶有某種概率性質(zhì)的反證法。小概率思想小概率事件在一次試驗中基本上不會發(fā)生反證法思想先提出檢驗假設(shè),再用適當?shù)慕y(tǒng)計方法,利用小概率原理,確定假設(shè)是否成立。假定該假設(shè)H0正確小概率事件發(fā)生拒絕H0“小概率事件”發(fā)生的概率稱為檢驗的顯著性水平,用α表示7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化(1)提出檢驗假設(shè)提出檢驗假設(shè)又稱零假設(shè),符號是H0;備擇假設(shè)的符號是H1。H0:樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的;H1:樣本與總體或樣本與樣本間存在本質(zhì)差異;(2)給定顯著性水平

通常取α=0.05(3)選定相應統(tǒng)計方法由樣本觀察值按相應的公式計算出統(tǒng)計量的大小,如t值、F值等。(4)根據(jù)統(tǒng)計量計算相應的概率p值下結(jié)論若p>α,不顯著,接受H0;若p≤

α,顯著,拒絕H07.2.2假設(shè)檢驗的思想1.假設(shè)檢驗的基本步驟7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗

7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——縱向比較7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——縱向比較7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——縱向比較7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——縱向比較7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——縱向比較檢驗的p=0.0008<0.05,在顯著性水平

=0.05時拒絕H0,認為廣州地區(qū)的人均GDP與5萬元有顯著差異,應該是不少于5萬元的。7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗【Excel的基本操作】(1)在透視表中選需要的數(shù)據(jù),本例是2019年的珠三角人均GDP數(shù)據(jù)。(2)切換到“數(shù)據(jù)”選項卡,單擊“分析”組中的“數(shù)據(jù)分析”按鈕,將彈出數(shù)據(jù)分析對話框。在分析工具框中選擇“t-檢驗:成對雙樣本均值分析”。(3)給出總體均值:在C4:C24區(qū)域給出總體均值5。(4)輸入:變量1的區(qū)域:B3:B24變量2的區(qū)域:C3:C24假設(shè)平均差:0標志:不選α(A):0.05(5)輸出選項:輸出區(qū)域:F47.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化【Excel的基本操作】7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化檢驗的p=0.3508>0.05,在顯著性水平

=0.05時不拒絕H0,認為廣州地區(qū)的人均GDP與10萬元無顯著差異。7.2.3均值比較的t檢驗1.單樣本均值的t檢驗【Excel的基本操作】7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——橫向比較7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——橫向比較7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——橫向比較7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——橫向比較檢驗的p=0.0405<0.05,在顯著性水平

=0.05時拒絕H0,認為2019年廣東地區(qū)的人均GDP與5萬元有顯著差異,應該是不少于5萬元的。檢驗的p=0.0374<0.05,在顯著性水平

=0.05時拒絕H0,認為2019年廣東地區(qū)的人均GDP與10萬元有顯著差異。7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——橫向比較【Excel的基本操作】1)在透視表中選需要的數(shù)據(jù),本例是2019年的珠三角人均GDP數(shù)據(jù)。2)切換到“數(shù)據(jù)”選項卡,單擊“分析”組中的“數(shù)據(jù)分析”按鈕,將彈出數(shù)據(jù)分析對話框。在分析工具框中選擇“t-檢驗:成對雙樣本均值分析”。3)給出總體均值:在D4:D24區(qū)域分別給出總體均值10。4)輸入:變量1的區(qū)域:B3:B24變量2的區(qū)域:D3:D24

假設(shè)平均差:0標志:不選α(A):0.055)輸出選項:輸出區(qū)域:F47.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化【Excel的基本操作】7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗由于經(jīng)濟數(shù)據(jù)大都有趨勢波動,所以數(shù)據(jù)通常很難滿足正態(tài)性要求,這類數(shù)據(jù)的檢驗通常要做些變換,如對數(shù)變換或秩變換(非參數(shù)方法),從而使數(shù)據(jù)更接近正態(tài)分布。7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗對數(shù)處理7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗對數(shù)處理7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗對數(shù)處理檢驗的p=0.1207>0.05,在顯著性水平=0.05時不拒絕H0,認為廣州地區(qū)的人均GDP與5萬元無顯著差異。檢驗的p=0.0374<0.05,在顯著性水平=0.05時拒絕H0,認為2019年廣東地區(qū)的人均GDP與10萬元有顯著差異。7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗要求兩組數(shù)據(jù)均應服從正態(tài)分布要求兩組數(shù)據(jù)相應的兩總體方差相等,即方差齊性。7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(1)正態(tài)性檢驗7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(1)正態(tài)性檢驗7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(1)正態(tài)性檢驗7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(1)正態(tài)性檢驗可以看出,深圳和珠海的GDP數(shù)據(jù)的分布基本上是正態(tài)的7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(2)方差齊性檢驗檢驗不同地區(qū)GDP的變異有無顯著差異,即檢驗兩總體方差是否相等,這里用的是levene方差齊性檢驗。p=0.8333>0.05,說明兩組數(shù)據(jù)的方差是一樣的。7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(3)均值的檢驗(方差齊性時)要具體檢驗以下假設(shè):H0:

1=

2;H1:

1≠

2

。由概率論知:7.2參數(shù)的統(tǒng)計推斷第7章數(shù)據(jù)統(tǒng)計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(3)均值的檢驗(方差齊性時)當H0

成立時,所以在給定了顯著性水平α后,由樣本數(shù)據(jù)算出t值及對應的概率p值,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論