




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第三章統(tǒng)計資料的整理與分析第一節(jié)
資料的整理一、資料整理的概念和原則
是根據(jù)統(tǒng)計研究的目的要求,對統(tǒng)計調(diào)查所取得的原始資料進行科學的分類、匯總使之成為系統(tǒng)化、條理化的綜合資料,以反映現(xiàn)象總體特征的工作過程。
二、統(tǒng)計分組
(一)統(tǒng)計分組的概念和作用
1、概念根據(jù)某種標志,將總體劃分為性質(zhì)不同的組成部分,即在總體內(nèi)部進行的一種定性分類分:對總體而言,將總體區(qū)分為性質(zhì)相異的若干部分——組間差異性合:對個體而言,將性質(zhì)相同的個體組織起來——組內(nèi)的同質(zhì)性
2、作用(1)劃分現(xiàn)象的性質(zhì)差異(2)反映總體的內(nèi)部結(jié)構(gòu)及其變化(3)研究現(xiàn)象間的依存關(guān)系(4)統(tǒng)計分組可以反映現(xiàn)象的發(fā)展變化規(guī)律
性別200920102011男203035女807065某單位員工性別結(jié)構(gòu)(單位:人)
正的依存關(guān)系月收入旅游者單次旅游人均消費額1000元以下5001000-1500元
7001500-2000元10002000-2500元12002500元以上2000
負的依存關(guān)系工作時間(小時/周)平均停留天數(shù)602482.5403364依存關(guān)系不同于因果關(guān)系飯店接待人數(shù)客源國一月二月三月四月五月六月日本1000
12501300154016701700美國100160160150147145
(二)分組標志的選擇分組的關(guān)鍵在于選擇和確定分組標志.1.根據(jù)統(tǒng)計研究目的進行分組研究飯店規(guī)模、經(jīng)濟類型結(jié)構(gòu)、員工文化素質(zhì)、員工性別結(jié)構(gòu)2.必須堅持窮盡性和互斥性的原則
分組標志的種類一、按標志的特征
★按品質(zhì)標志分組如性別、企業(yè)所有制
★
按數(shù)量標志分組
單值分組(單項式分組)組距分組
單項式分組:按每一個具體變量值分組,適用于變量取值有限的離散型變量按家庭人口數(shù)1人
2人
3人
4人
5人
5人以上
組距式分組:按變量值的一定范圍對現(xiàn)象總體所進行的分組將總體劃分為若干區(qū)間適用于變量取值范圍較大的離散型變量和連續(xù)型變量按成績分組:
60分以下
60-70分
70-80分
80-90分
90-100分按職工人數(shù)分組:100人以下
100-500人
500-1000人
1000-2000人
2000人以上組距式分組的相關(guān)問題:⑴組限:表示各組之間的界限的變量值下限上限
60分以下
60-70分
70-80分
80-90分
90-100分⑵組限重合式:相鄰兩組中,前一組的上限與后一組的下限數(shù)值重疊
※作為重疊的組限應歸到下一組組限不重合式:相鄰兩組中,前一組的上限與后一組的下限數(shù)值緊密相連但不重疊按職工人數(shù)分組:100人以下
101-500人
501-1000人
1001-2000人
2001人以上組限重合式組限不重合式連續(xù)型變量√離散型變量√√(3)組距:指一組變量值的區(qū)間長度=上限-下限
60分以下
60-70分
70-80分
80-90分
90-100分
100人以下
100-500人
500-1000人
1000-2000人
2000人以上(4)開口組:有上限無下限或有下限無上限
⑸等距式分組:各組組距都相等的分組按成績分組:
60分以下
60-70分
70-80分
80-90分
90-100分
不等距式分組:各組組距不相等的分組(異距分組)按職工人數(shù)分組:100人以下
100-500人
500-1000人
1000-2000人
2000人以上(6)組數(shù):即分組個數(shù)組數(shù)與組距成反比關(guān)系組數(shù)既不能太多也不能太少,應準確反映總體的分布特征
60分以下
60-70分
70-80分
80-90分
90-100分
(7)組中值:各組變量值的代表性水平重合式組限組的組中值=上限+下限2
例1:60分以下
60-70分
70-80分
80-90分
90-100分
100人以下
100-500人
500-1000人
1000-2000人
2000人以上組中值3007501500
非重合式組限組的組中值=
例2
100人以下
101-500人
501-1000人
1001-2000人
2001人以上本組下限+后一組下限2組中值3017511501開口組組中值:缺下限組的組中值=上限-鄰組組距2缺上限組的組中值=下限+鄰組組距2
60分以下
60-70分
70-80分
80-90分
90分以上組中值60-10/2=5590+10/2=95二、按標志的個數(shù)
簡單分組復合分組
簡單分組:只按一個標志進行分組,只能說明社會經(jīng)濟現(xiàn)象某一方面的狀況。年齡情況:19歲以下
19歲
20歲
21歲及以上性別:男女復合分組:對社會經(jīng)濟現(xiàn)象總體按兩個或兩個以上的標志結(jié)合起來所進行的分組
19歲以下
19歲
20歲
21歲及以上男女男男男女女女注意:分組標志要分清主次分組標志不宜過多總體單位數(shù)很多才使用層疊結(jié)構(gòu)分組比(%)5000以下116000-7000147000-8000108000-9000159000-100002010000-11000911000-120001212000140002140000以上3合計1008000以下8000-1000010000-1200012000以上再分組
練習題1:產(chǎn)值:
30萬元以下
30萬-50萬元
50萬-100萬元
100萬-500萬元
500萬元以上請問是哪一種分組方式,組數(shù),組距,組中值練習題2按職工人數(shù)分組如下:
500人及以下
501-1000人
1001-2000人
2001-5000人
5001-10000人
10000人以上請問是哪一種分組方式,組數(shù),組距,組中值練習題3旅游公司對其所屬企業(yè)的生產(chǎn)計劃完成百分比采用如下分組,請指出哪項是正確的?1)80-89%
90-99%
100-109%
110%以上2)80%以下
80.1-90%
90.1-100%
100.1-110%3)90%以下
90-100%
100-110%
110%以上4)85%以下
85-95%
95-105%
105-115%練習題4某旅游公司對其所屬企業(yè)按職工人數(shù)分組,請問哪項正確?2)500人及以下
501-1000人
1001-2000人
2001-5000人
5001-10000人
10000人以上4)500人以下
499-1000人
999-2000人
1999-5000人
4999-10000人
9999人以上1)500人以下
502-1000人
1002-2000人
2002-5000人
5002-10000人
10002人以上3)500人以下
500-1000人
1000-2000人
2000-5000人
5000-10000人
選擇題1、下列分組哪些是按品質(zhì)標志分組()
A文化程度B固定資產(chǎn)按用途
C工齡D民族E生產(chǎn)計劃完成程度2、下列分組哪些是按數(shù)量標志分組()
A學生按健康狀況分組B工人按出勤率狀況分組
C企業(yè)按固定資產(chǎn)原值分組D家庭按收入水平分組
E人口按地區(qū)分組3、下面哪些是連續(xù)型變量()
A住房面積B商店的商品銷售額
C高校的大學生人數(shù)D人口的出生率
E工業(yè)增長速度4、下面哪些是離散型變量()
A進口的糧食數(shù)量B洗衣機臺數(shù)
C每千人口醫(yī)院床位數(shù)D人均糧食產(chǎn)量
E城鄉(xiāng)集市個數(shù)第二節(jié)資料匯總的技術(shù)
匯總的技術(shù)有手工和計算機匯總兩種.
一.計算機匯總的步驟編碼,登錄,錄入和統(tǒng)計分析
編碼手冊如何對無回答和不知道的答案進行編碼?
二、
數(shù)據(jù)清理
1.有效范圍清理
變量的有效編碼值有一定范圍錯誤原因:
錯誤回答,編碼員錯寫,錄入人員錯誤輸入.★在電腦上檢查有效范圍的編碼值2.邏輯一致性的清理依據(jù)問卷中問題之間所存在的內(nèi)在邏輯聯(lián)系來檢查前后數(shù)據(jù)之間的合理性.
《中國國內(nèi)旅游抽樣調(diào)查資料2006》
2005年全國城鎮(zhèn)居民國內(nèi)出游人均花費737·12元,長沙為3119·69元,
人均花費按文化程度分組,全國及各城市都是文化程度越高花費越多,長沙是中專及高中文化程度人均花費最高,達到4532·6元,高于其大專及以上文化程度組(1658·8元)2·73倍。按家庭月平均收入分組,全國及其他城市收入越高旅游花費越高,長沙的最高花費是家庭月平均收入介于1000元~1999元的家庭組,高達7005·2元。
3.數(shù)據(jù)質(zhì)量抽查
根據(jù)樣本中的個案數(shù)目的多少,以及每份問卷中變量數(shù)和總字符數(shù)的多少,研究者往往抽取2%-5%的個案進行質(zhì)量抽查.比如:
一項調(diào)查樣本規(guī)模為1,000個個案,問卷的字符數(shù)(數(shù)據(jù)的個數(shù))為200個,研究者從中隨機抽取3%的個案,即30份進行對照檢查,結(jié)果發(fā)現(xiàn)有2個字符輸入錯誤,這樣
2÷(200×30)≈0.03%
可知,數(shù)據(jù)差錯率在0.03%左右.這也就是說在總共20萬個數(shù)據(jù)中,大約有60個左右的差錯.第四節(jié)
分配數(shù)列一、分配數(shù)列的概念和種類1、概念所謂分配數(shù)列就是表現(xiàn)總體單位在各組分配狀況的統(tǒng)計數(shù)列。構(gòu)成要素:(1)按分組標志劃分的各個組;(2)各組的總體單位數(shù)。各組單位數(shù)與總體單位總數(shù)的比率稱為頻率。
2、分配數(shù)列的種類(1)品質(zhì)數(shù)列:是按品質(zhì)標志分組編制的統(tǒng)計數(shù)列。例:某高校學生性別分布表(2)變量數(shù)列:是按數(shù)量標志分組編制的統(tǒng)計數(shù)列。
性別
人數(shù)(人)
頻率(%)男
73257.14女54942.86
合計1281100.00二、變量數(shù)列及其編制
(一)變量數(shù)列的種類
(1)單項數(shù)列:以每個變量值為一組,按各組順序簡單排列編制而成。(2)組距數(shù)列:以表示一定范圍的數(shù)值區(qū)間為一組,按各組順序排列編制而成。某班學生按考試成績分組按成績分(分)
人數(shù)(人)
比率(%)
60以下78.8
60-702126.2
70-802531.2
80-901923.8
90以上810.0合計
80100.0某地區(qū)所屬20個旅游企業(yè)營業(yè)收入計劃完成程度分組資料如下:按計劃完成程度分組(%)企業(yè)(個)比重(%)
90以下
90~100100~110110~120120以上13114151555205合計20100(三)變量數(shù)列的編制方法例如,某旅游商品生產(chǎn)企業(yè)50名工人日生產(chǎn)產(chǎn)品數(shù)如下:
117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121第一步,對上面的數(shù)據(jù)進行排序
107108108110112112113114115117117117118118118119120120121122122
122
122123123
123
123124124
124125125126126127127
127128128129130131133133134134135137139139第二步,確定組數(shù)和組距組數(shù)=4組距:(最大值-最小值)÷組數(shù)=8組距=10第三步,計算各組次數(shù)、頻率及累計次數(shù)、累計頻率產(chǎn)品數(shù)分組次數(shù)頻率%累計次數(shù)累計頻率%100-1103636110-12013261632120-13024484080130-140102050100合計50100--
用Excel整理數(shù)據(jù)例:某年級96名同學的旅游統(tǒng)計學成績?nèi)缦?,對其?0分以下、60~70、70~80、80~90、90-100分為5個組,試編制分配數(shù)列。
頻數(shù)分布函數(shù)(FREQUENCY)首先,將樣本數(shù)據(jù)排成一列,本例中為H2:H97。然后,利用頻數(shù)分布函數(shù)進行統(tǒng)計分組和計算頻數(shù)具體操作:第一步:選定單元格區(qū)域,本例中選定的區(qū)域為J3:J7,單擊“插入”菜單,選擇“函數(shù)”選項,彈出“插入函數(shù)”對話框
在“選擇類別”中選擇“統(tǒng)計”,在“選擇函數(shù)”中選擇“FREQUENCY”
第二步:打開“FREQUENCY”對話框,輸入待分組數(shù)據(jù)與分組標志
第三步:按“Ctrl+Shift+Enter”組合鍵,在最初選定單元格區(qū)域內(nèi)得到頻數(shù)分布結(jié)果,在本例中為J3:J7
思考題:1、有26名員工,看管餐桌臺數(shù)分別為
54243434424343244223453243試編制單項式分配數(shù)列。2、某市26家飯店月接待旅客人數(shù)資料如下,試編制組距式分配數(shù)列。分4組。
6802280105013301460103011701610910950143098018101640181010001570153011102170170020301200115013801780
第四節(jié)統(tǒng)計資料的表現(xiàn)形式:統(tǒng)計圖表一、統(tǒng)計表(一)統(tǒng)計表的構(gòu)成
1、從形式上看:總標題、橫行標題、縱欄標題、指標數(shù)值、有關(guān)說明
2、從內(nèi)容上看:主詞欄、賓詞欄
(二)統(tǒng)計表的種類
按主詞是否分組和分組的程度分:
1、簡單表:總體未經(jīng)任何分組的統(tǒng)計表。
2、分組表:總體按某一標志進行分組的統(tǒng)計表。
3、復合表:總體按兩個或兩個以上標志進行并重疊排列的統(tǒng)計表。
上半年下半年總?cè)藬?shù)
飯店數(shù)比重國有經(jīng)濟飯店
200萬元以下
200-350萬元
350-500萬元集體經(jīng)濟飯店
200萬元以下按作用不同分(1)調(diào)查表(2)整理或匯總表(3)分析計算表按統(tǒng)計數(shù)列的性質(zhì)分(1)時間數(shù)列表(2)空間數(shù)列表(3)時空數(shù)列結(jié)合表月份123456人數(shù)月份123甲飯店乙飯店丙飯店丁旅行社(三)編制統(tǒng)計表應注意的事項:
1、統(tǒng)計表的各種標題應簡明、確切地表達其內(nèi)容。
2、主詞各行和賓詞各欄,一般按先局部后整體的原則排列。
3、如表中欄次較多,通常要加以編號。
4、數(shù)字應對準位數(shù),填寫整齊。
5、表中必須注明計量單位。
6、表式通常是左右開口。
7、必要時,應在表下方注明表中某些資料的來源或?qū)δ持笜说挠嬎惴椒ㄗ龀稣f明。
(四)分配數(shù)列的“表”示方法1、單變量表示法各組的頻率大于0各組的頻率總和等于1成績頻數(shù)頻率%較小制累積頻率(向上累積)較大制累積頻率(向下累積)60以下78.860-702126.270-802531.280-901923.890-100810.0合計801002、兩個變量的相關(guān)表
洛杉磯300家餐館的質(zhì)量等級和價目(美元)價格等級10-1920-2930-3940-49合計好42402084很好3464466150優(yōu)異214282266合計781187628300邊際頻數(shù)分布二、統(tǒng)計圖
(一)統(tǒng)計圖的概念
統(tǒng)計圖是用點、線、面積等來說明統(tǒng)計資料對比關(guān)系的幾何圖或象形圖。
統(tǒng)計圖
1.直條圖2.百分條圖3.餅圖(圓圖)4.線圖5.直方圖6.散點圖直條圖(bar
chart)
1.概念:用等寬直條的長短來表示各個相互獨立的資料大小的圖形。2.適用資料:相互獨立的資料(資料有明確分組,不連續(xù))。百分條圖(percentagebarchart)
概念:以長條面積為100%,用長條內(nèi)各段面積所占的百分比來表示各部分在全體中所占的比例適用資料:構(gòu)成比資料。
餅圖(圓圖pie
chart)
概念:以一個圓面積為100%,用圓內(nèi)各扇形面積所占的百分比來表示各部分所占的構(gòu)成比例適用資料:構(gòu)成比資料。
線圖(linediagram)
概念:以線段的上升或下降來表示事物在時間上的發(fā)展變化或一種現(xiàn)象隨另一種現(xiàn)象變遷的情況適用資料:連續(xù)性資料。
直方圖(histogram)
1.概念:以各矩形的面積來代表各組頻數(shù)的多少。2.適用資料:連續(xù)變量的頻數(shù)分布。
散點圖(scatterdiagram)
1.概念:以點的密集程度和趨勢來表示兩種現(xiàn)象的相關(guān)關(guān)系。2.適用資料:雙變量資料。
莖葉圖把每個觀察數(shù)據(jù)劃分為兩個部分:主部和余部,然后把數(shù)據(jù)的主部按從小到大的順序縱向排列,再在每個數(shù)據(jù)的主部后面列出余部,所得到的統(tǒng)計資料顯示圖優(yōu)點:(1)整理資料時不要做什么準備工作,省時方便(2)莖葉圖同時具有頻數(shù)分布和直方圖的功能(3)由莖葉圖資料很容易求出反應數(shù)據(jù)特征的位置平均數(shù)指標,也可以得到對稱性、離散度、奇異點等信息(4)基本保留了原始資料的信息,還原能力強123452545116679049莖:表示十位數(shù)字葉:表示個位數(shù)字例:某籃球運動員在某賽季各場比賽的得分情況如下:12,15,24,25,31,31,36,36,37,39,44,49,50莖葉圖:直方圖分析工具
與頻數(shù)分布函數(shù)只能進行統(tǒng)計分組和頻數(shù)計算相比,直方圖分析工具可完成數(shù)據(jù)的分組、頻數(shù)分布與累積頻數(shù)的計算、繪制直方圖與累積折線圖等一系列操作。
第一步:工
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 紡織品檢驗員證書考試策略研究試題及答案
- 工程總承包的試題及答案
- 國家普法考試試題及答案
- 備考廣告設計師的試題及答案內(nèi)容分析
- 出差助理面試題及答案
- 兵哥心理測試題及答案
- 學術(shù)培訓面試題及答案
- 救援技術(shù)面試題及答案
- 《并購后的整合》課件
- 提升職業(yè)教育學校辦學能力的創(chuàng)新路徑與實施方案
- 市場營銷部規(guī)范化管理工具箱
- 五年級下冊生命生態(tài)安全教案
- 2024年湖南高考真題化學試題(原卷版)
- 旗桿維修合同范例
- 兒童糖尿病講課課件
- 安防主管崗位月工作計劃
- 學前兒童衛(wèi)生與保健-期末大作業(yè):案例分析-國開-參考資料
- 醫(yī)療器械經(jīng)營質(zhì)量管理制度和工作程序目錄
- 《火災事故案例培訓》課件
- 蒸汽管道試運行方案
- 2024高考物理一輪復習第66講分子動理論內(nèi)能(練習)(學生版+解析)
評論
0/150
提交評論