統(tǒng)計學-學習筆記_第1頁
統(tǒng)計學-學習筆記_第2頁
統(tǒng)計學-學習筆記_第3頁
統(tǒng)計學-學習筆記_第4頁
統(tǒng)計學-學習筆記_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章導論

一、統(tǒng)計及其應用領域

統(tǒng)計學(statistics):是收集、處理、分析、解釋數據并從數據中得出結論的科學。

數據分析所用的方法可分為描述統(tǒng)計方法和推斷統(tǒng)計方法。

按統(tǒng)計方法分:

描述統(tǒng)計(descriptivestatistics)研究的是數據收集、處理、分析、匯總、圖表描述、概括與分

析等統(tǒng)計方法。

推斷統(tǒng)計(inferentiaIstatistics)研究如何利用樣本數據來推斷總體特征的統(tǒng)計方法。

按統(tǒng)計方法研究與應用分:理論統(tǒng)計學、應用統(tǒng)計學。

統(tǒng)計學的主要特點:數量性、社會性、總體性。

統(tǒng)計的應用領域:

1、企業(yè)發(fā)展戰(zhàn)略

2、產品質量管理

3、市場研究

4、財務分析

5、經濟預測

6、人力資源管理

二、統(tǒng)計數據的類型

按計量層次分類:

分類數據(categoricaldata)是只能歸于某一類別的非數字型數據。

順序數據(rankdata)是只能歸于某一有序類別的非數字型數據。

數值型數據(metricdata)是按數字尺度測量的觀察值,其結果表現為具體的數值。

定性數據(qualitativedata)即品質數據,分類數據和順序數據。

定量數據(quantitativedata)即數量數據,數值型數據。

按收集方法分類:

觀測數據(observationaIdata)是通過調查(調查數據)或觀測而收集到的數據?!旧鐣F象】

實驗數據(experimentaldata)是在實驗中控制實驗對象而收集到的數據?!咀匀滑F象】

按時間狀況分類:

截面數據(cross-sectionaIdata)是在相同或近似相同的時間點上收集的數據,這類數據通常是在

不同的空間上獲得的,用于描述現象在某一時刻的變化情況。

時間序列數據(timeseriesdata)是在不同時間收集到的數據,這類數據是按時間順序收集到的,

用于描述現象隨時間變化的情況。

三、統(tǒng)計中的幾個基本概念

總體(population):包含所研究的全部個體(數據)的集合。

總體通常由所研究的一些個體組成,組成總體的每個元素稱為個體。

根據總體包含的單位數目是否可數分:

有限總體:總體的范圍能夠確定,而且元素的數目是有限可數的。(抽取一個單位后,總體元素

就會減少一個,前一次抽樣會影響第二次抽樣的結果。)

無限總體:總體所包括的元素是無限的、不可數的。(每次抽取一個單位,并不影響下一次的抽

樣結果。)【抽樣中每次抽取是否獨立?!?/p>

樣本(sample):從總體中抽取一部分元素的集合。

樣本量(samplesize):構成樣本元素的數目。

抽樣的目的是根據樣本提供的信息推斷總體的特征,根據樣本統(tǒng)計量去估計總體參數。

參數(parameter):用來描述總體特征的概括性數字度量,是研究者想要了解的總體的某種特征值。

(總體平均數以、總體標準差。、總體比例n等。)

統(tǒng)計量(statistic):用來描述樣本特征的概括性數字度量,是根據樣本數據計算出來的一個量,

是樣本的函數。(樣本平均數x-bar、樣本標準差s、樣本比例p等。)

變量(variable):說明現象某種特征的概念,其特點是從一次觀察到下一次觀察結果會呈現出差別

或變化。(變量的具體取值稱為變量值。)

1分類變量(categoricalvariabIe)是說明事物類別的一個名稱,其取值是分類數據。

2、順序變量(rankvariable)是說明事物有序類別的一個名稱,其取值是順序數據。

3、數值型變量(metricvariable)是說明事物數字特征的一個名稱,其取值是數值型數據。

數值型變量根據其取值不同分:

離散型變量(discretevariable)是只能取可數值的變量,只能取有限個值,且取值都以

整位數斷開,可以——列舉。

連續(xù)型變量(continuousvariable)是可以在一■個或多個區(qū)間中取任何值的變量,其取值

是連續(xù)不斷的,不能——列舉。

其他分類:隨機變量和非隨機變量、經驗變量(empiricalvariabIe)、理論變量(theoreticaI

variabIe)。

第二章數據的收集

一、數據的來源

數據的間接來源,即二手資料,搜集方便、數據采集快、采集成本低,但局限性很大,針對性不

夠。

對二手資料評估需考慮:資料是誰搜集的?為什么目的而搜集?數據是怎樣搜集的?什么時候搜

集的?

數據的直接來源。

二、調查數據

什么是好的樣本?

一是針對研究問題而言的,二是具有最好的性能價格比,即針對調查費用與估計精度的關系而言

的。

使用抽樣采集數據的具體方式:概率抽樣和非概率抽樣

概,率抽樣(probabiIitysampIing):也稱隨機抽樣,是指遵循隨機原則進行的抽樣,總體中每個單

位都有一定的機會被選入樣本。

隨機原則:在抽取樣本時排除主觀上有意識的抽取調查單位,是每一個單位都有一定的機會被抽中。

特點:

1、抽樣時是按一定的概率以隨機原則抽取樣本。

2、每個單位被抽中的概率是已知的,或是可以計算出來的。

3、當用樣本對總體目標量進行估計時,要考慮到每個樣本單位被抽中的概率。

概率抽樣方式:

1、簡單隨機抽樣(simpIerandomsampIing)就是從包括總體N個單位的抽樣框(sampIingframe)

中隨機地、一個個的抽取n個單位作為樣本,每個單位的入樣概率上相等的。

特點:簡單、直觀、計量方便。

局限性:

a、要求將包含所有總體單位的名單作為抽樣框,當N很大時,構造這樣的抽樣框并不容易。

b、抽出的單位很分散,給實施調查增加了困難。

c、沒有利用其它輔助信息以提高估計的效率。

2、分層抽樣(stratifiedsampIing)是將抽樣單位按某種特征或某種規(guī)則劃分為不同的層,然

后從不同的層中獨立、隨機地抽取樣本。

優(yōu)點:

a、保證了樣本中包含有各種特征的抽樣單位,樣本結構與總體結構比較相近,有效地提高

估計的精度。

b、在一定條件下為組織實施調查提供了方便。

c、既可以對總體參數進行估計,也可以對各層的目標量進行估計。

3、整群抽樣(cIustersampling)即將總體中若干個單位合并為組,這樣的組稱為群,抽樣時

直接抽取群,然后對中選群中的所有單位全部實施調查。

特點:

a、簡化了編制抽樣框的工作量。

b、調查地點相對集中,節(jié)省調查費用,方便調查實施。

弱點:估計的精度較差,要得到與簡單隨機抽樣相同的精度,需要增加基本調查單位。

4、系統(tǒng)抽樣(systematicsampIing)將總體中的所有單位(抽樣單位)按一■定順序排列,在規(guī)

定的范圍內隨機地抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其他樣本單位。

優(yōu)點:操作簡單,若有輔助信息,對總體內的單位進行有組織的排列,可以有效地提高估計的精

度。

缺點:對估計量方差的估計比較困難。

5^多階段抽樣(multi-stagesampIing)首先抽取群,然后再進一步抽樣,從選中的群中抽取

若干個單位進行調查,即二階段抽樣,群是初級抽樣單位,第二階段抽取的是最終抽樣單位。

優(yōu)點:

a、保證樣本相對集中,節(jié)約調查費用。

b、不需要包含所有底階段抽樣單位的抽樣框。

c、由于實行了再抽樣,使調查單位在更廣的范圍內展開。

非概率抽樣(non-probabilitysampIing):是相對于概率抽樣而言的,指抽取樣本時不是依據隨機

原則,二是根據研究目的對數據的要求,采用某種方式從總體中抽取部分單位對其實施調查。

非概率抽樣的類型:

1、方便抽樣

調查過程中由調查員依據方便原則,自行確定入抽樣本的單位。

最大特點是容易實施,調查成本低;弱點是樣本單位的確定帶有隨意性。

2、判斷抽樣

研究人員根據經驗、判斷和對研究對象的了解,有目的地選擇一些單位作為樣本,實施時根據不

同的目的有重點抽樣、典型抽樣、代表抽樣等方式。

優(yōu)點是成本較低,容易操作;弱點是主觀性強,樣本選擇的好壞取決于調研者的判斷、經驗、專

業(yè)程度和創(chuàng)造性,且調查結果不能用于對總體有關參數進行估計。

3、自愿抽樣

被調查者自愿參加,成為樣本中的一份子,向調查人員提供有關信息,可反映某類人群的一般看

法。

4、滾雪球抽樣

往往用于對稀少群體的調查,適合對特定群體進行研究的資料搜集。

優(yōu)點是容易找到那些屬于特定群體的被調查者,調查的成本也比較低。

5、配額抽樣

首先將總體中的所有單位按一定的標志(變量)分為若干類,然后在每個類中采用方便抽樣或判

斷抽樣的方式選取樣本單位。

可以按單一變量控制,也可以按交叉變量控制(保證樣本的分布更為均勻)。

搜集數據的基本方法:

1、自填式

弱點是問卷的回收率比較低,不適合結構復雜的問卷。

2、面訪式

弱點是調查的成本較高,在對調查過程的質量控制方面有一定難度。

3、電話式

特點是速度快,能夠在很短的時間內完成調查。

4、觀察式

數據搜集方法的選擇:

1、抽樣框中的有關信息。

2、目標總體的特征。

3、調查問題的內容。

4、有形輔助物的使用。

5、實施調查的資源。

6、管理與控制。

7、質量要求。

三、實驗數據

實驗組(experimentgroup):指隨機抽選的實驗對象的子集,每個單位接受某種特別的處理。

對照組(controlgroup):每個單位不接收實驗組成員所接受的某種特別的處理。

【雙盲法】對照組和實驗組是匹配的。

實驗中的若干問題:

1、人的意愿。

2、心理問題。

3、道德問題。

實驗中的統(tǒng)計作用:

1、確定實驗所需要的單位的個數,以保證實驗可以達到統(tǒng)計顯著的結果。

2、將統(tǒng)計思想融入實驗設計,使實驗設計符合統(tǒng)計分析的標準。

3、提供盡可能有效的同時研究幾個變量影響的方法。

什么是好的實驗?

一方面是內部的有效性,即實驗測量的準確性;另一方面是外部的有效性,外部的有效性決定

是否可以將實驗中發(fā)現的因果關系進行推廣,即能否將結果推廣到實驗環(huán)境以外的情況。

實驗數據可以作為研究者判斷假設的依據。

四、數據的誤差

數據的誤差:指通過調查搜集到的數據與研究對象真實結果之間的差異。

抽樣誤差(samplingerror):由抽樣的隨機性引起的樣本與總體真值之間的誤差。

抽樣誤差描述的是所有樣本可能的結果與總體真值之間的平均差異。

影響抽樣誤差大小的因素:

1、樣本量的大小。

樣本量越大,抽樣誤差越?。粯颖玖看蟮降扔诳傮w單位時,抽樣調查變?yōu)槠詹椋闃诱`差為零。

2、總體的變異性。

總體的變異性越大,即各單位之間的差異越大,抽樣誤差也就越大,因為可能抽到特別大或特別

小的樣本單位,從而使樣本結果偏大或偏??;反之總體的變異性越小,各單位之間越相似,抽樣誤差

也就越?。蝗绻械膯挝煌耆粯?,調查一個就可以精確無誤的推斷總體,抽樣誤差就不存在。

非抽樣誤差(non-samplingerror):相對于抽樣誤差而言,是除抽樣誤差之外的,由于其他原因引

起的樣本觀察結果與總體真值之間的差異。

非抽樣誤差的類型:

1、抽樣框誤差

2、回答誤差(a、理解誤差b、記憶誤差c、有意識誤差)

3、無回答誤差

4、調查員誤差

5、測量誤差

誤差的控制:

抽樣誤差是由抽樣的隨機性帶來的,只要采用概率抽樣,抽樣誤差就不可避免,但抽樣誤差是可

以計算的。

樣本量和抽樣誤差的關系:一旦誤差確定下來,就可以采用相應的措施進行控制,進行控制的一

個主要方法是改變樣本量,要求的抽樣誤差越小,所需要的樣本量就越大。

第三章數據的圖表展示

一、數據的預處理

數據的預處理:在對數據分類或分組之前所做的必要處理,內容包括數據的審核、篩選、排序等。

A、數據審核:檢查數據中是否有錯誤。

對于通過調查取得的原始數,主要從完整性和準確性兩個方面去審核。

完整性審核:主要是檢查應調查的單位或個體是否有遺漏,所有的調查項目是否填寫齊全等。

準確性審核:主要是檢查數據是否有錯誤,是否存在異常值等。

對于二手數據,應著重審核數據的適用性和時效性。

B、數據篩選(datafilter):根據需要找出符合特定條件的某類數據。

C、數據排序:按一定順序將數據排列,以便研究者通過瀏覽數據發(fā)現一些明顯的特征或趨勢,找到

解決問題的線索。

排序還有助于對數據檢查糾錯,以及為重新歸類或分組提供方便。

分類數據——字母型數據[升序、降序]

漢字型數據[按漢字首位拼音字母排列、按姓氏筆畫排序]

(交替運用不同方式排序,在漢字型數據的檢查糾錯過程中十分有用。)

數值型數據[遞增、遞減]

順序統(tǒng)計量(orderstatistics):排序后的數據。

D、數據透視表(pivottabIe)

二、品質數據的整理與展示

A、分類數據的整理與圖示

頻數(frequency):落在某一特定類別或組中的數據個數。

頻數分布(frequencydistribution):把各類別及落在其中的相應頻數全部列出,并用表格的形式

表現出來。

列聯表(contingencytabIe):由兩個或兩個以上的變量交叉分類的頻數分布表。

交叉表(crosstabIe):二維的列聯表(兩個變量交叉分類)。

對于定型數據除了用頻數分布表進行描述外,還可用比例、百分比、比率等統(tǒng)計計量來描述。

比例(proportion):也稱構成比,它是一個樣本或總體中各個部分的數據與全部數據之比,通常用

于反應樣本或總體的構成或結構。

百分比(percentage):將比例乘以100得到的數值,用%表示。

比率(rati。):樣本或總體中不同類別數據之間的比值,由于比率不是部分與整體之間的對比關系,

因此比值可能大于1。

分類數據的圖示——

條形圖(barchart):用寬度相同的條形的高度或長短來表示數據多少的圖形,縱置時稱也為柱形

圖(columnchart),此外,又分為簡單條形圖、復式條形圖等。

帕累托圖(paretochart):按各類別數據出現的頻數多少排序后繪制的條形圖,左側縱軸給出計數

值(count),即頻數,右側的縱軸給出累積百分比(cumuIativepercent)。

餅圖(piechart):用圓形及園內扇形的角度來表示數值大小的圖形,它主要用于表示一個樣本或

總體中各組成部分的數據占全部數據的比例,對于研究結構性問題十分有用。

環(huán)形圖(doughnutchart):把餅圖疊在一起,挖取中間部分即可。

B、順序數據的整理與圖示

累積頻數(cumulativefrequencies):將各有序類別或組的頻數逐級累加起來得到的頻數。

累積方法一向上累積:從類別順序的開始一方向類別順序的最后一方累加頻數;

數值型分組數據則是從變量值小的一方向變量值大的一方累加頻數。

向下累積:從類別順序最后的一方向類別順序開始的一方累加頻數;

數值型分組數據則是從變量值大的一方向變量值小的一方累加頻數。

累積頻率或累積百分比(cumulativepercentages):將各有序類別或組的百分比逐級累加起來,也

有向上累積和向下累積兩種方法。

累積頻數分布或頻率圖。

三、數值型數據的整理與展示

A、數據分組

數據分組:根據統(tǒng)計研究的需要,將原始數據按照某種標準分成不同的組別。

分組數據(groupeddata):根據統(tǒng)計研究的需要,將原始數據按照某種標準分成不同的組別,分組

后的數據。

數據分組的方法一

1)按照一個標志進行的分組是簡單分組,按照多個標志進行的分組是復合分組。

2)單變量值分組:把每一個變量值作為一組;適用于變量值較少的離散型變量。

3)組距分組:將全部變量值一次劃分為若干區(qū)間,將一個區(qū)間的變量值作為一組;

適用于變量值較多或連續(xù)型變量。

在組距(cIasswidth)分組中,一■個組的最小值稱為下限(lowerIimit),最大值稱為上限(upper

Iimit),并遵循不重不漏的原則;組距相等稱為等距分組,組距不等稱為不等距分組。

組中值(cIassmidpoint):每一■組中下限值與上限值中間的值,即組中值=(下限值+上限值):2,

反映各組數據的一般水平。(必栗假定條件:各組數據在本組內呈均勻分布或在組中值兩側呈對稱分

布。)

B、數值型數據的圖示

a、分組數據:直方圖

顯示分組數據頻數分布特征的圖形有直方圖、折線圖和曲線圖等。

直方圖(histogram):用矩形的寬度和高度(即面積)來表示頻數分布的。

b、未分組數據:莖葉圖和箱線圖

莖葉圖(stem-and-leafdisplay):反應原始數據分布的圖形,首先把一個數字分成兩部分,通常

是以該組數據的高位數值作為樹莖,而且葉上只保留該數值的最后一個數字。

通過莖葉圖,可以看出數據分布的形狀及數據的離散狀況,比如,分布是否對稱,數據是否集中,

是否有離群點等。

箱線圖(boxplot):由一■組數據的最大值(maximum)、最小值(minimum)、中位數(median)、

兩個四分位數(quartiles)這五個特征值繪制而成,它主要用于反映原始數據分布的特征,還可以

進行多組數據分布特征的比較。

箱線圖的繪制方法:先找出一組數據的最大值、最小值、中位數、兩個四分位數;然后連接兩個

四分位數畫出箱子;再將最大值和最小值與箱子相連接,中位數在箱子中間。

箱線圖的分布類型有:對稱分布、左偏分布、右偏分布、U形分布。

c、時間序列數據:線圖

時間序列數據:在不同時間上獲得的數值型數據。

線圖(lineplot):主要用于反映現象隨時間變化的特征。

d、多變量數據的圖示

散點圖(scatterdiagram):用二維坐標展示兩個變量之間關系的一種圖形,由坐標及其散點形成

的二維數據圖。

氣泡圖(bubblechart):用于展示三個變量之間的關系,將一個變量放在橫軸,另一個變量放在縱

軸,第三個變量用氣泡大小來表示。

雷達圖(radarchart):顯示多個變量的常用圖示方法,也稱為蜘蛛圖(spiderchart),在顯示

或對比各變量的數值總和時十分有用。

雷達圖的具體做法:先畫一個圓,然后將圓P等分,得到P個點,另這P個點分別對應P個變量,

再將這P個點與圓心連線,得到P個輻射狀的半徑,這P個半徑分別作為P個變量的坐標軸,每個變

量值的大小由半徑上的點到圓心的距離表示,再將同一樣本的值在P個坐標上的點連線。

四、合理使用圖表

A、鑒別圖形優(yōu)劣的準則

圖優(yōu)性(graphicaIexceIIency)

一張好的圖形應具有以下基本特征:

1、顯示數據;

2、讓讀者把注意力集中在圖形的內容上,而不是制作圖形的程序上;

3、避免歪曲;

4、強調數據之間的比較;

5、服務于一個明確的目的;

6、有對圖形的統(tǒng)計描述和文字說明。

鑒別圖形優(yōu)劣的準則:

1、一張好圖應當精心設計,有助于洞察問題的實質;

2、一張好圖應當使復雜的觀點得到簡明、確切、高效的闡述;

3、一張好圖應當能在最短的時間內以最少的筆墨給讀者提供最大量的信息;

4、一張好圖應當是多維的;

5、一張好圖應當表述數據的真實情況。

B、統(tǒng)計表的設計

統(tǒng)計表一般有四個主要部分組成,即表頭(包括表號、總標題和表中數據的單位等)、行標題、

列標題和數據資料,此外,必要時可以在統(tǒng)計報表的下方加上表外附加(包括數據來源、變量的注釋

和必栗的說明等)。

注:標題內容應滿足3W要求,即時間(when)、地點(where)以及何種數據(what)。

第四章數據的概括性度量

一、集中趨勢的度量

集中趨勢(centraItendency):指一組數據向某一中心值靠攏的程度,它反映了一組數據中心點的

位置所在。

A、分類數據:眾數

眾數(mode):一組數據中出現次數最多的變量值,用Mo表示;主要用于測度分類數據的集中趨勢,

也適用于順序數據和數值型數據;在數據量較大的情況下,眾數才有意義。

眾數是一個位置代表值,它不受數據中極端值的影響,是具有明顯集中趨勢點的數值,是一組數

據分布的最高峰點所對應的數值;眾數可能不存在,也可能有兩個(雙眾數)或多個眾數。

B、順序數據:中位數和分位數

中位數(median):一組數據排序后處于中間位置上的變量值,用Me表示;主要用于測度順序數據的

集中趨勢,也適用于數值型數據,但不適用于分類數據;它是一個位置代表值,不受數據中極端值的

影響。

中位數位置的確定公式:中位數位置=(n+1)/2,n為數據個數。

中位數為:Me—n為奇數;Me——卜(2)+%(巴+])},n為偶數。

四分位數(quartiIe):也稱四分位點,是一組數據排序后處于25%和75%位置上的值。

設下四分位數為QL,上四分位數為Qu,QL位置Qu位置=芋。四分位數還有其他三種計算

44

方法:

1、一種較為準確的算法是按下列公式確定位置:QL位置=上,Qu位置=%椀。

44

Fn+11|

2、以中位數為中心,從兩端再計算出中位數,確定位置的公式為:Q位置=母一,[等]

表示中位數的位置取整。

3、Excel給出的四分位數位置的確定方法為:QL位置=等,Qu位置=一。

類似還有十分位數(deciIe)和百分位數(percentiIe)等。

C、數值型數據:平均數

均值(mean):也稱為平均數,是一組數據相加后除以數據的個數得到的結果,是集中趨勢的最主要

測度值,主要適用于數值型數據,不適用于分類數據和順序數據;反映事物必然性的數量特征。

簡單平均數(samplemean):根據未經分組數據計算的平均數,即

_x1+x2+-+xn_2上1/

x——O

nn

加權平均數(weightedmean):根據分組數據計算的平均數,即方=竽上乎%=

/1+/2+---+J/C

&W空,M為組中值,72=2%,即樣本量。

幾何平均數(geometricmean):n個變量值乘積的n次方根,用G表示,即6=4KlX犯X…Xxn-

主要用于計算平均比率。

D、眾數、中位數和平均數之間的關系

如果數據的分布是對稱的,眾數=中位數=平均數;

如果數據是左偏分布,說明數據存在極小值,必然拉動平均值向極小值一方靠,平均值〈中位數〈

眾數;

如果數據是右偏分布,說明數據存在極大值,必然拉動平均值向極大值一方靠,眾數〈中位數〈

平均值。

E、眾數、中位數和平均數的特點與應用場合

眾數是一組數據分布的峰值,不受極端值的影響。其缺點是具有不唯一性,一組數據可能有一個

眾數,也可能有兩個或多個眾數,也可能沒有眾數。眾數只有在數據較多的時才有意義,當數據量較

少時,不宜使用眾數。眾數主要適合作為分類數據的集中趨勢測度值。

中位數是一組數據中間位置上的代表值,不受數據極端值的影響。當一組數據的分布偏斜程度較

大時,使用中位數也許是一個好的選擇。中位數主要適合作為順序數據的集中趨勢測度值。

平均數是針對數值型數據計算的,而且利用了全部數據信息,它是實際應用中最廣泛的集中趨勢

測度值。當數據是對稱分布或接近對稱分布時,3個代表值相等或接近相等,這時則應選擇平均數作

為集中趨勢的代表值。但平均數的主要缺點是易受數據極端值影響,對于偏態(tài)分布的數據,平均數的

代表性較差。因此,當數據為偏態(tài)分布,特別是偏斜程度較大時,可以考慮選擇中位數或眾數。

二、離散程度的度量

離散程度:反映的是各變量值遠離其中心值的程度。

A、分類數據:異眾比率

異眾比率(variationratio):指非眾數組的頻數占總頻數的比例,用/表示,即/一空啟=]—

’Lfi

經,2方為變量值的總頻數,源為眾數組的頻數;用于衡量眾數對一組數據的代表程度,主要適用

于測度分類數據的離散程度,也適用于順序數據和數值型數據。

異眾比率越大,說明非眾數組的頻數占總頻數的比重越大,眾數的代表性越差;異眾比率越小,

說明非眾數組的頻數占總頻數的比重越小,眾數的代表性越好。

B、順序數據:四分位差

四分位差(quartiIedeviation):也稱為內距或四分間距(inter-quartiIerange),是上四分

位數與下四分位數之差,用Qd表示,即Qd=Qu-QL;主要適用于測度順序數據的離散程度,也適用

于數值型數據,不適用于分類數據。

四分位差反映了中間50%數據的離散程度,其數據越小,說明中間的數據越集中;其數據越大,

說明中間的數據越分散;四分位差不受極值影響。

C、數值型數據:方差和標準差(反映數據離散程度的絕對值)

極差(range):也稱全距,一組數據的最大值與最小值之差,用R表示,即R=max(%D-min(久D;容

易受極值的影響,不能反映出中間數據的分散狀況,不能準確的描述數據的分散程度。

平均差(meandeviation):也稱平均絕對離差(meanabsoIutedeviation),是各變量值與其平

均數離差絕對值的平均數,用Md表示,即根據未分組數據計算一Md=刊尸,根據分組數據計算

—Md=%“-幻&

n

平均差以平均數為中心,反映了每個數據與平均數的平均差異程度,能全面準確地反映一組數據

的離散狀況;平均差越大,說明數據的離散程度越大;反之,則說明數據的離散程度越小。

方差(variance):各變量值與其平均數離差平方的平均數,即未分組數據一s2=,分組

n-1

數據一S2二求」M一爐&

n-1____________

標準差(standarddeviation):方差的平方根,未分組數據一s=分組數據一s-

\71-1

%的一無而

\71-1

樣本方差是用樣本數據個數減1后除離差平方和。

自由度(degreeoffreedom):樣本數據個數減1即n-1。

【相對位置的度量】:

標準分數(standardscore):變量值與其平均數的離差除以標準差后的值,也稱標準化值或z分數,

即4=第,給出了一組數據中各數值的相對位置。

標成分數具有平均數為0,標準差為1的特性。

經驗法則一當一組數據對稱分布時,經驗法則表明:

1、約有68%的數據在平均數±1個標準差的范圍之內;

2、約有95%的數據在平均數±2個標準差的范圍之內;

3、約有99%的數據在平均數±3個標準差的范圍之內。

離群點(outlier):在平均數±3個標準差的范圍之外的數據。

切比雪夫不等式(Chebyshev'sinequality):對任何分布形狀的數據都適用,它提供的是“下界”,

也就是“所占比例至少是多少”。

對于任意分布形狀的數據,根據切比雪夫不等式,至少有(1-142)的數據落在土k個標準差之內

(其中k是大于1的任意值,但不一定是整數),對于k=2、3、4,該不等式的含義是:

1、至少有75%的數據在平均數±2個標準差的范圍之內;

2、至少有89%的數據在平均數±3個標準差的范圍之內;

3、至少有94%的數據在平均數±4個標準差的范圍之內。

D、相對離散程度:離散系數

離散系數(coefficientofvariation):也稱為變異系數,是一組數據的標準差與其相應的平均數

之比,即以=?;它是測度數據離散程度的相對統(tǒng)計量,主要用于比較不同樣本數據的離散程度。

離散系數金大,說明數據的離散程度也大;離散系數越小,說明數據的離散程度也小。

三、偏態(tài)與峰度的測量

A、偏態(tài)及其測量

偏態(tài)(skewness):對數據分布對稱性的測度,測度偏態(tài)的統(tǒng)計量是偏態(tài)系數(coefficientof

skewness),記作SK。

1、未分組的原始數據:SK=*s3是樣本標準差的三次方。

(n-l)(n-2)s3

2、分組數據:SK=d*"。

如果一組數據的分布是對稱的,則偏態(tài)系數等于0;如果偏態(tài)系數明顯不等于0,表明分布是非

對稱的。

若偏態(tài)系數大于1或小于7,稱為高度偏態(tài)分布;若偏態(tài)系數在0.5~1或-1~-0.5之間,稱為中

等偏態(tài)分布;偏態(tài)系數越接近0,偏斜程度就越低。

分布對稱時,SK=0;當SK為正值時,表示正離差值較大,可判斷為正偏或右偏;當SK為負值時,

表示負離差值較大,可判斷為負偏或左偏;SK的數值越大,表示偏斜的程度越大。

B、峰態(tài)及其測量

峰態(tài)(kurtosis):對數據分布平峰或尖峰程度的測度,測度峰態(tài)的統(tǒng)計量是峰態(tài)系數(coefficient

ofkurtosis),記作K。

_n(n+l)X(Xi-x)4-3[£(Xi-x)2『(n-i)

1、未分組數據:K

(n-l)(n-2)(n-3)s4

2、分組數據:K=

ns4J。

如果一組數據服從標準正態(tài)分布,則峰態(tài)系數等于0;如果峰態(tài)系數明顯不等于0,表明分布比

正態(tài)分布更平或更尖,通常稱為平峰分布或尖峰分布。

由于正態(tài)分布的峰態(tài)系數為0,當K>0時為尖峰分布,數據的分布更集中;當K<0時為扁平分布,

數據的分布越分散。

第五章概率與概率分布

一、隨機事件及其概率

試驗:在同一組條件下,對某物或現象所進行的觀察或實驗。

事件:觀察或試驗的結果。

隨機事件(randomevent):也叫偶然事件,簡稱“事件”,記作A、B、C等。

必然事件(certainevent):O

不可能事件(impossibleevent):①

基本事件(eIementaryevent):又叫簡單事件,即一■個不能分解成兩個或更多個事件的事件。

在一次試驗中,只能觀察到一個且僅有一個簡單事件。

樣本空間:又叫基本空間,一個試驗中所有的簡單事件的全體,記為Q。

事件A的概率(probability):描述的是事件A在試驗中出現的可能性大小的一種度量,可能性數值

記為P(A)。

A、概率的古典定義:

1、結果有限,即基本空間中只含有限個元素;

2、各個結果出現的可能性被認為是相同的。

具有這種特點的隨機試驗稱為古典概型或等可能概型。計算古典概型概率的方法稱為概率的古典

定義或古典概率。

事件A所包含的基本事件個數m

p(m=______________________________=_

樣本空間所包含的基本事件個數n

局限性:隨機試驗只有有限個可能結果的范圍,

B、概率的統(tǒng)計定義:

在相同條件下隨機試驗n次,某事件A出現m次(mWn),則比值m/n稱為事件A發(fā)生的頻率。

隨n的增大,該頻率圍繞某一常數P上下波動,且波動的幅度逐漸減小,趨于穩(wěn)定,這個頻率的穩(wěn)

定值即為該事件的概率,記為P(A)=m/n=po

C、概率的主觀定義:

主觀概率:對一些無法重復的試驗,只能根據以往的經驗,人為確定這個事件的概率;定義是,一個

決策者根據本人掌握的信息對某事件發(fā)生可能性的判斷。

二、概率的性質與運算法則

A、概率的基本性質(概率的公理化定義)

1、對任一隨機事件A,有0WP(A)W1

2、必然事件的概率為1,而不可能事件的概率為0,即P(Q)=1,P(①)=0

3、若A與B互斥,則P(AUB)=P(A)+P(B)

由此可推廣到多個兩兩互斥的隨機事件,即

PG41UA2U...UAn)=P(4)+P(4)+-+P-

B、概率的加法法則

1兩個互斥事件之和的概率,等于兩個事件概率之和;設A和B為兩個互斥事件,則

P(AUB)=P(A)+P(B)o

AUA'=O,則A與A'互斥,P(O)=1,所以P(AUA')=P(Q)=1,即P(A)+P(A')=1,從而P(A')=1—

P(A^P(A)=1—P(A')o

2、對于任意兩個隨機事件,它們和的概率為兩個事件分別的概率之和減去兩事件相交的概率,

即P(AUB)=P(A)+P(B)-P(AHB)。

C、條件概率與獨立事件

1.條件概率(conditionaIprobabiIity):當某一■事件B已經發(fā)生時,求事件A發(fā)生的概率,稱

這種概率為事件B發(fā)生條件下事件A發(fā)生的條件概率,記為P(A|B),一般來說,P(A|B)WP(A)。

2、乘法公式

£7(D)>0;也可為P(AB)=P(B)P(A|B)或P(AB)=P(A)P(B|A)。

3、獨立性(independence):

一般認為,兩個事件中不論哪一個事件發(fā)生與否并不影響另一事件發(fā)生的概率,則稱這兩個事件

相互獨立。

相依事件:一個事件發(fā)生與否會影響另一個事件的發(fā)生。

當兩個事件相互獨立時【P(A|B)=P(A),P(B|A)=P(B)]QP(AB)=P(A)P(B)

-An)=P(ZI)PG42)…P?)

互斥事件一定是相互依賴(不獨立)的,但相互依賴的事件不一定是互斥的;不互斥事件可能是

獨立的,也可能是不獨立的,然而獨立事件不可能是互斥的。

D、全概率公式及貝葉斯公式

1、全概率公式:P(B)=2%P(4B)=%1P(4)P(B|4)

2、貝葉斯公式(逆概率公式):P(4|B)=沈像)。

貝葉斯公式是在觀察到事件B已發(fā)生的條件下,尋找導致A發(fā)生的每個原因Ai的概率;P(Ai)稱為

原因Ai的驗前概率(priorprobabiIity)或先驗概率;P(B|Ai)一般來自樣本所提供的信息;P(Ai|B)

稱為原因Ai的后驗概率(posteriorprobabiIity)。

三、離散型隨機變量及其分布

概率函數(probabilityfunction):在同一■組條件下,如果每次試驗可能出現這樣或那樣的結果,

并且把所有的結果都能列舉出來,即把X的所有可能值x1,x2,…,xn都列舉出來,而X的x1,x2,…xn

可能值,具有確定概率P(x1),P(x2),-P(xn),其中P(xi)=P(X=xi),稱為概率函數,則X稱為P(X)

的隨機變量,P(X)稱為隨機變量X的概率函數。

兩種類型的隨機變量:

1、離散型(discrete)隨機變量:隨機變量X的所有取值都可以逐個列舉出來。

2、連續(xù)型(continuous)隨機變量:隨機變量X的所有取值無法逐個列舉出來,而是取數軸上某

一區(qū)間內的任一點。

A、離散型隨機變量的概率分布(probabiIitydistribution)P(X=%。=p"2憶=1

1、0—1分布:離散型隨機變量X只可能取0和1兩個值,概率分布為=P(X=1)=p,P(X=0)=1-p=q或

P(X)=pXqi-x,%=o、i,p、q>0為常量,p+q=l。

2、均勻分布(rectanguIardistribution)p;=-+-+-+—I■工=1。

aaaa

B、離散型隨機變量的期望值和方差

1、期望值(expectedvalue):在離散型隨機變量X的一切可能值的完備組中,可能值xi與其對

應概率pi的乘積之和,E(X)=Yi=1XiPi=

2、方差與標準差"

方差:每一個隨機變量取值與期望值的離差平方之期望值,反映隨機變量取值的離散程度,

D(X)=E[X-E(X)F=斃皿—E(X)F訪=E(X2)—[E(X)F。

若X的取值比較集中,則方差較??;若X的取值比較分散,則方差較大。如果方差為0,則意味著

隨機變量取值集中在期望值E(X),即隨機變量以概率1取值E(X)。

標準差:隨機變量方差的平方根,a=7W)o

3、離散系數

C、二項分布和泊松分布

1、二項分布(binomiaIdistribution):包含n個相同的試驗;每次試驗只有兩次可能的結果;

出現“成功”的概率p和“失敗”的概率q對每一次試驗是相同的,且p+q=1;試驗是相互獨立的;試

驗結果對應于一個離散型隨機變量;符合上述特征的n次重復獨立試驗為n重貝努里試驗,簡稱貝努里

試驗(BernouIIitrials)或貝努里概型。

P{X=行=C^pxqn-x,P{X=%}20,

2Mo鬣=(p+q)n=i,鬣=_£L_o

二項分布的期望值和方差分別為:E(X)=np,D(X)=npq。

當n=1時,二項分布化為P{X=嗎=pXqir,久=0、1,即0—\分布。

超幾何分布:設有N件產品,其中有M件次品,現從中任取n件(nWN),則在這n件中所含的次品

rmrn-m

件數X是一個隨機變量,P{X=m}=M其中m為任取n件中次品的件數。

CN

2、泊松分布(Poissondistribution):用來描述在一^定時間范圍內或指在指定的面積或體積

之內某一件事出現的次數的分布,P(X)=V^。

泊松分布的期望值和方差分別為:E(X)=入,D(X)=入。

在n重貝努里試驗中,當成功的概率很小(即pTO),試驗次數很大時,二項分布可能近似等于

泊松分布,^C^pxqn-x~

四、連續(xù)型隨機變量的概率分布

A、概率密度與分布函數

概率密度函數(probabilitydensityfunction):滿足f(x)20,且/二)/(%居%=1。

P(X=x)再連續(xù)分布的條件下為零。

分布函數:F(x)=P(XWX)=,:8汽。戊,—oo<%<+oo;f(x)=F'(x)o

P(a<X<b)=J:f(x)dx,J;/(%)=F(b)-F(a)

期望值與方差:E(X)=xf(x)dx=u,D(X)=匚白%—E(K)]2/(%)d%=er2。

B、正態(tài)分布(normaldistribution)【對稱鐘形曲線】

1、概率密度:/(%)=工篇0-不,—oo<%<4-00,—co<//<+8,a>0,〃為隨機變量X的均

值,。為隨機變量X的標準差。

1)f(x),O,即整個概率密度曲線都在x軸的上方。

2)曲線f(x)相對于x=口對稱,并在x=口處達到最大值,/(〃)=孟

3)曲線的陡緩程度由。決定,。越大,曲線越平緩;。越小,曲線越陡峭。

4)當x趨于無窮時,曲線以x軸為其漸近線。

2、標準正態(tài)分布(standardnormaIdistribution)[|i=0,a=1]

1)概率密度:(p{x)--y=e~~

2)分布函數:①(x)=匕(p④)dt=匕意e=dt

將一般正態(tài)分布轉化為標準正態(tài)分布:設X?N(HR2),則2=一?N(0,l);①(-x)=1-①(x)。

3、正態(tài)分布表

4、正態(tài)分布在質量管理中的應用

1)3。原則下,質量標準的合格率為99.73%,即

P(〃-3(r<X<〃+3(r)=0(3)-0(-3)=0.9973

2)6o的質量水準意味著產品合格率達到99.9999998%,即

P(〃—6(r<X<〃+6(T)=0(6)-0(-6)=0.999999998

任何流程在實際運行中都會產生偏離目標值或者期望值的情況,這種偏移稱為漂移。

5、二項分布的正態(tài)近似

第六章統(tǒng)計量及其抽樣分布

一、統(tǒng)計量

統(tǒng)計量:T(x1,x2,…xn),又稱樣本統(tǒng)計量。

次序統(tǒng)計:由小到大排序x1,x2,…xn,x1和xn分別為最小和最大次序統(tǒng)計量。

Rn=Xn-X1樣本極差,反映樣本觀測值的離散程度。

充分統(tǒng)計量:統(tǒng)計量加工過程中一點信息都不損失的統(tǒng)計量。

【常用統(tǒng)計量】:樣本均值、樣本方差、樣本變異系數、樣本k階矩、樣本k階中心矩、樣本偏度、樣

本峰度。

二、關于分布的幾個概念

抽樣分布(sampIingdistribution):在總體分布X的分布類型已知時,若對任意自然數n,都能導

出統(tǒng)計量T=T(x1,x2,…xn)的分布的數學表達式,則稱為精確的抽樣分布。

漸進分布:統(tǒng)計量T(x1,x2,…xn)的極限分布。

隨機模擬獲得的近似分布

三、由正態(tài)分布導出的幾個重栗分布

A、卡方分布(/2分布)

B、t分布

C、F分布

四、樣本均值的分布與中心極限定理

A、總體分布為正態(tài)分布X?N(〃,b2)時,N的抽樣分布仍為正態(tài)分布,又的數學期望為U、方差為^2/71,

則/?N(〃R2/71)。

N的期望值與總體均值相同,而方差縮小為總體方差的1/n,說明當用樣本均值去估計總體均值時,

平均來說沒有偏差(無偏性),當n越來越大時,X的散布程度越來越小,即用N估計U越來越準確。

設總體均值為口、方差為^2(有限),則總有

n\n

(招止》&)=〃,

i=l/i=l

D⑶=。&琳通)=*2匕。(%)=M/n。

B、中心極限定理(centraIIimittheorem):設從均值為|1、方差為d(有限)的任意一■個總體中

抽取樣本量為n的樣本,當充分大時,樣本均值的抽樣分布近似服從均值為口、方差為標/n的正態(tài)分

布(n230為大樣本,n<30為小樣本是經驗說法)。

五、樣本比例的抽樣分布

樣本大小為n的樣本中具有某一特征的個體數為X,樣本比例戶=:(來估計總體比例n)o戶服從

均值為「、方差為雙押的正態(tài)分布,即日?N(7T,鞏登)。

22

設E(X)=〃,D(X)=則E(CX)=Cn,£>(CX)=Coa

六、兩個樣本平均值之差的分布

22

E區(qū)-電=E區(qū))-Eg”,。區(qū)-W)=°區(qū))+Dg=—+—

n1n2

七、關于樣本方差的分布一

1、樣本方差的分布(八一l)S2/cr2?犬5一1),彳2(九一1)稱為自由度為(n-1)的卡方分布。

2、兩個樣本方差比的分布

設X1,X2,…,Xn1是來自正態(tài)總體N(%,必)的一個樣本,Y1,Y2,…,Yn2是來自正態(tài)總體^(處,母)

的一個樣本,且Xi與Yi相互獨立,則m=簫“7(%—1,%—1),其中惠=號2£(左一#2,

2

X=注晨1如Sj=占E£(X-Y),Y=注占1X;Fdi-l,n2-1)是第一自由度(分子自由度)

為%—1,第二自由度(分母自由度)為電―1的F分布。

第七章參數估計

一、參數估計的基本原理

參數估計(parameterestimation):用樣本統(tǒng)計量去估計總體的參數。

估計量(estimator):用于估計總體參數的隨機變量,參數用8表示,估計量?用表示。

估計值(estimatedvalue):估計參數時計算出來的統(tǒng)計量的具體值。

點估計(pointestimate):用樣本的估計量的某個取值直接作為總體參數的估計值。

雖然在重復抽樣條件下,點估計的均值可望等于總體真值,但由于樣本是隨機的,抽出一個具體

的樣本得到的估計值很可能不同于總體真值;一個點估計量的可靠性是由它的抽樣標準誤差來衡量的,

這表明一個具體的點估計值無法給出估計的可靠性的度量。

區(qū)間估計(intervalestimate):在點估計的基礎上,給出總體參數估計的一■個區(qū)間范圍,該區(qū)間

由樣本統(tǒng)計量加減估計誤差而得到。

根據樣本統(tǒng)計量的抽樣分布能夠對樣本統(tǒng)計量與總體參數的接近程度給出一個概率度量。

置信區(qū)間(confidenceintervaI):由樣本統(tǒng)計量所構造的總體參數的估計區(qū)間,其中區(qū)間的最小

值為置信下限,最大值為置信上限。

置信水平(confidencelevel):將構造置信區(qū)間的步

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論