




已閱讀5頁(yè),還剩117頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)統(tǒng)計(jì)與分析方法,1、數(shù)據(jù)統(tǒng)計(jì)的一般方法;2、數(shù)據(jù)分析的一般方法;3、了解數(shù)據(jù)統(tǒng)計(jì)和分析在實(shí)際案例中的應(yīng)用;4、了解時(shí)間序列分析及相關(guān)軟件應(yīng)用;,培訓(xùn)主要內(nèi)容:,瞎子王國(guó)里,有一只眼精的人就是國(guó)王!,.,心電圖的由來(lái),1780年有一天,43歲的意大利解剖學(xué)家伽伐尼GalvaniLuigi,1737-1798),在實(shí)驗(yàn)室解剖青蛙,在用銀質(zhì)手術(shù)刀觸碰放在鐵盤上的青蛙的時(shí)候,無(wú)意間發(fā)現(xiàn)青蛙腿部肌肉抽搐了一下,仿佛受到電流的刺激如果換用一種金屬器械去觸動(dòng)青蛙,就無(wú)此種反應(yīng)。,1832年,一個(gè)晴朗的日子,還是意大利,還是青蛙,只是做實(shí)驗(yàn)的人換成了馬泰烏奇。這一次,馬泰烏奇探測(cè)到損傷和未損傷的肌肉之間存在一種電流,他稱之為“肌肉電流”。他發(fā)現(xiàn),包括心臟在內(nèi),一切正在收縮的肌肉都會(huì)產(chǎn)生肌肉電流。,醫(yī)學(xué)研究者通過(guò)大量的臨床數(shù)據(jù)發(fā)現(xiàn)正常和非正常的心電圖,.,1、什么是數(shù)據(jù)?,數(shù)據(jù)是指對(duì)客觀事件進(jìn)行記錄并可以鑒別的符號(hào),是對(duì)客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進(jìn)行記載的物理符號(hào)或這些物理符號(hào)的組合。它是可識(shí)別的、抽象的符號(hào)。,數(shù)據(jù)表現(xiàn)形式,.,表現(xiàn)形式一,數(shù)據(jù)列表,.,數(shù)據(jù)表現(xiàn)形式二,描述性分析:數(shù)據(jù)分時(shí)段走勢(shì)、差距變化情況以及相應(yīng)的時(shí)間背景,銷售碼洋趨勢(shì)圖,.,數(shù)據(jù)表現(xiàn)形式三,銷售碼洋結(jié)構(gòu)比,圖形可以幫助我們將數(shù)據(jù)轉(zhuǎn)換成信息,.,數(shù)據(jù)類型的分類,1、計(jì)量資料(measurementdata),用儀器、工具等測(cè)量方法獲得的數(shù)據(jù),又稱數(shù)值變量。,特點(diǎn):有計(jì)量單位,如患者的身高(cm),體重(kg),血壓(kPa)等.,2、計(jì)數(shù)資料(countdata),按某種屬性分類計(jì)數(shù)后得到的數(shù)據(jù),又稱無(wú)序分類變量,有二分類和多分類兩種情形.,特點(diǎn):無(wú)計(jì)量單位,如膚色(黑白)、血型(ABO)、職業(yè)(工農(nóng)兵)、性別(男,女)等.,3、等級(jí)資料(ordinaldata),半定性或半定量的觀察結(jié)果,有大小順序,又稱有序分類變量.,如癌癥分期:早、中、晚。藥物療效:治愈、好轉(zhuǎn)、無(wú)效、死亡。尿蛋白:,+,+及以上,.,實(shí)例數(shù)據(jù),計(jì)量資料,計(jì)數(shù)資料,.,三類資料間關(guān)系,例:一組2040歲成年人的血壓,以12kPa為界分為正常與異常兩組,統(tǒng)計(jì)每組例數(shù),8低血壓8正常血壓12輕度高血壓15中度高血壓17重度高血壓,計(jì)量資料,等級(jí)資料,計(jì)數(shù)資料,.,第一部數(shù)據(jù)統(tǒng)計(jì)概述,.,什么是統(tǒng)計(jì)方法,統(tǒng)計(jì)方法是指有關(guān)收集、整理、分析和解釋統(tǒng)計(jì)數(shù)據(jù),并對(duì)其所反映的問(wèn)題作出一定結(jié)論的方法。統(tǒng)計(jì)方法是一種從微觀結(jié)構(gòu)上來(lái)研究物質(zhì)的宏觀性質(zhì)及其規(guī)律的獨(dú)特的方法。,.,一般統(tǒng)計(jì)方法,根據(jù)數(shù)據(jù)的類型可以分為以下三種統(tǒng)計(jì)方法1、計(jì)量資料的統(tǒng)計(jì)方法*2、計(jì)數(shù)資料的統(tǒng)計(jì)方法3、等級(jí)資料的統(tǒng)計(jì)方法,.,運(yùn)用統(tǒng)計(jì)方法應(yīng)遵循的原則,堅(jiān)持用數(shù)據(jù)說(shuō)話的基本觀點(diǎn)。有目的地收集數(shù)據(jù)。掌握數(shù)據(jù)的來(lái)源。認(rèn)真整理數(shù)據(jù)。,.,統(tǒng)計(jì)分析流程,確定問(wèn)題確定分析目標(biāo),采用科學(xué)方法收集數(shù)據(jù),考察數(shù)據(jù)時(shí)效性整理數(shù)據(jù),統(tǒng)計(jì)分析,出具分析報(bào)告,提出解決意或建議,.,計(jì)量資料的統(tǒng)計(jì)描述,1、頻數(shù)分布(frequencydistribution),為了了解數(shù)據(jù)的分布情況,可以編制頻數(shù)表(frequencytable).,(1)求極差(range):即最大值與最小值之差,又稱為全距。(2)數(shù)據(jù)分組:由樣本容量n確定組數(shù)、通常分10-15個(gè)組;一般采取等距分組,組距=極差/組數(shù)。(3)列出組段:第一組段的下限略小于最小值,最后一個(gè)組段上限必須包含最大值,其它組段上限值忽略。(4)劃記計(jì)數(shù):用劃記法將所有數(shù)據(jù)歸納到各組段,得到各組段的頻數(shù)。,頻數(shù)表的編制步驟,.,表2-1:160名正常成年女子的血清甘油三酯(mmol/L),.,編制頻數(shù)表,繪制頻數(shù)分布圖,.,對(duì)稱分布:以頻數(shù)最多組段為中心左右大體對(duì)稱.右(正)偏態(tài)分布:頻數(shù)最多組段右側(cè)組段數(shù)多.(skewedtotherightdistribution)左(負(fù))偏態(tài)分布:頻數(shù)最多組段左側(cè)組段數(shù)多.(skewedtotherightdistribution),.,2、集中趨勢(shì)的描述,統(tǒng)計(jì)上使用平均數(shù)(average)來(lái)反映計(jì)量資料的集中趨勢(shì)(centraltendency).,常用平均數(shù)有:1.算術(shù)均數(shù)(arithmeticmean),簡(jiǎn)稱均數(shù)(mean)2.幾何均數(shù)(geometricmean)3.中位數(shù)(median)4.百分位數(shù)(percentile),.,3、離散趨勢(shì)的描述,反映數(shù)據(jù)的離散度(Dispersion),即個(gè)體觀察值的變異(variation)程度,常用的統(tǒng)計(jì)指標(biāo)有:1.極差(Range)(全距)2.四分位數(shù)間距(Quartilerange)3.方差(Variance)4.標(biāo)準(zhǔn)差(StandardDeviation)5.變異系數(shù)(CoefficientofVariation),四分位間距:QRP75P25,.,三、SPSS實(shí)現(xiàn)計(jì)量資料的統(tǒng)計(jì)描述,下面是SPSS軟件中繪制頻數(shù)圖的步驟,.,.,四、計(jì)數(shù)資料的統(tǒng)計(jì)描述,1、計(jì)數(shù)資料數(shù)據(jù)的整理,.,按年齡(2歲一組)與職業(yè)整理,.,2、常用相對(duì)數(shù)指標(biāo),計(jì)數(shù)資料常用的數(shù)據(jù)形式是絕對(duì)數(shù),如某病的出院人數(shù),治愈人數(shù)等.但絕對(duì)數(shù)不具可比性,需要計(jì)算相對(duì)數(shù).,率(rate):說(shuō)明某現(xiàn)象或某事物發(fā)生的頻率或強(qiáng)度。率=(實(shí)際發(fā)生數(shù)/可能發(fā)生總數(shù))比例基數(shù)比例基數(shù):100%、1000、10000/萬(wàn)、100000(1/10萬(wàn))等如:發(fā)病率、死亡率、發(fā)生率、陽(yáng)性率、患病率等構(gòu)成比(proportion):說(shuō)明某一事物內(nèi)部,各組成部分所占的比重,也叫百分比。構(gòu)成比=(某部分觀察單位數(shù)/各組成部分觀察單位總數(shù))100%如:教研室20人中高級(jí)職稱有5人,占25。相對(duì)比(relativeratio):是A、B兩個(gè)有關(guān)指標(biāo)之比,說(shuō)明A是B的若干倍或百分之幾,通常用倍數(shù)或分?jǐn)?shù)表示。如:男:女、醫(yī)生:護(hù)士、教師:學(xué)生,.,例:率與構(gòu)成比,.,(1)不能以構(gòu)成比代替率。(2)計(jì)算相對(duì)數(shù)的分母不宜過(guò)小,小則直接敘述。(3)進(jìn)行率的對(duì)比分析時(shí),應(yīng)注意資料可比性。如比較療效時(shí),比較組間應(yīng)病情輕重相同,性別影響,應(yīng)按性別分組后再作比較。(4)正確求平均率。例:若P1=x1/n1P2=x2/n2P3=x3/n3P(x1+x2+x3)/n1+n2+n3)(正確)P(P1+P2+P3)/3(錯(cuò)誤),3、相對(duì)數(shù)應(yīng)用注意事項(xiàng),.,計(jì)數(shù)資料和等級(jí)資料的SPSS表示,.,五、統(tǒng)計(jì)表與統(tǒng)計(jì)圖,統(tǒng)計(jì)表(statisticaltable)數(shù)據(jù)代替文字描述,便于統(tǒng)計(jì)結(jié)果的精確、簡(jiǎn)潔的表達(dá)和對(duì)比分析.統(tǒng)計(jì)圖(statisticalchart)用圖形代替數(shù)據(jù),獲得直觀、形象的效果.,統(tǒng)計(jì)表,統(tǒng)計(jì)圖,定義:將統(tǒng)計(jì)分析的事物及指標(biāo)用表格列出.特點(diǎn):避免長(zhǎng)篇文字?jǐn)⑹?便于閱讀和對(duì)比分析;數(shù)據(jù)具體.,定義:用點(diǎn)的位置,線段的升降,直條的長(zhǎng)短或面積的大小等形式表達(dá)統(tǒng)計(jì)資料.特點(diǎn):直觀,醒目,常給人以深刻印象.,.,統(tǒng)計(jì)表由以下幾個(gè)部分組成:標(biāo)題、標(biāo)目、線條、數(shù)字、備注,表2-9某省某工廠1994、1998年四項(xiàng)檢測(cè)指標(biāo)異常檢出率,:TTT(麝香草酚濁度試驗(yàn)),:GPT(谷丙轉(zhuǎn)氨酶)。(丁建生等.中國(guó)衛(wèi)生統(tǒng)計(jì)1999;16(3):166),1、統(tǒng)計(jì)表的結(jié)構(gòu),.,備注:,表號(hào)標(biāo)題(包括何時(shí)、何地、何事),2、三線表,.,根據(jù)分組標(biāo)目的復(fù)雜程度,統(tǒng)計(jì)表可大致分為簡(jiǎn)單表和復(fù)合表。簡(jiǎn)單表(simpletable):只按一個(gè)特征或標(biāo)志分組。如表2-8。復(fù)合表(combinativetable):按兩個(gè)或兩個(gè)以上特征或標(biāo)志結(jié)合起來(lái)分組。如表2-9。,3、統(tǒng)計(jì)表的分類,.,3、不良統(tǒng)計(jì)表的修改,.,統(tǒng)計(jì)圖(statisticalchart或statisticalgraph)是用點(diǎn)、線、面等幾何圖形,直觀形象地表達(dá)、描述數(shù)據(jù)或結(jié)果。,3、統(tǒng)計(jì)圖,.,SPSS繪制基本圖形,.,SPSS繪制基本圖形,.,條形圖(BarChart),用途:用等寬直條的長(zhǎng)短來(lái)表示相互獨(dú)立的各統(tǒng)計(jì)指標(biāo)的數(shù)值大小,也叫直條圖.分單式和復(fù)式兩種.,.,單式條形圖,復(fù)式條形圖,.,圓圖(PieChart),用途:以圓的半徑將圓面分割成多個(gè)大小不等的扇形,以扇形面積來(lái)表達(dá)構(gòu)成比的圖形。,.,線圖(LineChart),用途:適用于連續(xù)變量資料,說(shuō)明某事物因時(shí)間、條件推移而變遷的趨勢(shì)。,.,直方圖(Histogram),用途:直方圖是以面積表示數(shù)量,適用于表達(dá)連續(xù)性資料的頻數(shù)或頻率分布。,第二部數(shù)據(jù)分析概述,.,什么是數(shù)據(jù)分析,請(qǐng)牢記:所有的分析要從“結(jié)果”出發(fā),沒(méi)有結(jié)論的數(shù)字羅列并不是分析;“結(jié)果”:發(fā)現(xiàn)問(wèn)題和解決問(wèn)題。,.,數(shù)據(jù)分析不是一門復(fù)雜的科學(xué);而是一些簡(jiǎn)單的“commonsense”;復(fù)雜的運(yùn)算通常只是令分析結(jié)果更差而不是更好;絕大多數(shù)是簡(jiǎn)單的想法和簡(jiǎn)單的溝通數(shù)據(jù)分析有時(shí)候是一門藝術(shù)同樣的數(shù)據(jù)會(huì)有不同的解讀優(yōu)秀和平庸的差異,有時(shí)候差在一種靈感,.,數(shù)據(jù)分析目的,讓數(shù)據(jù)說(shuō)話;行動(dòng)的向?qū)?;杜絕浪費(fèi);提供決策的依據(jù)。,數(shù)據(jù)分析誤區(qū),誤區(qū)一:展示元素不宜大于3個(gè),數(shù)據(jù)分析誤區(qū),誤區(qū)二:時(shí)間序列數(shù)據(jù)最好使用折線圖,而不宜使用柱狀圖等,誤區(qū)三:研究用數(shù)據(jù)最好不使用三維立體圖,數(shù)據(jù)分析誤區(qū),誤區(qū)四:為避免圖表的欺騙性,圖線最好占據(jù)2/3至3/4的高度(調(diào)整Y軸刻度),數(shù)據(jù)分析誤區(qū),常用的數(shù)據(jù)分析方法,1、抽樣法*2、聚類分析(ClusterAnalysis)*3、因子分析(FactorAnalysis)4、相關(guān)分析(CorrelationAnalysis)5、對(duì)應(yīng)分析(CorrespondenceAnalysis)6、回歸分析(regressionanalysis)7、方差分析(ANOVA/AnalysisofVariance)8、時(shí)間序列分析*,總體:,總體、個(gè)體,個(gè)體:,總體又叫母體,是研究對(duì)象的全體。出版商一個(gè)批次到貨的全部都可以稱為總體。,構(gòu)成總體的基本單位,稱為個(gè)體。每?jī)?cè)書都是一個(gè)個(gè)體。,來(lái)貨檢驗(yàn)常用抽樣方法進(jìn)行,即從來(lái)貨總件數(shù)中抽出一部分件數(shù),并測(cè)試每件的有關(guān)冊(cè)數(shù)是否夠數(shù)的特性數(shù)據(jù),進(jìn)行統(tǒng)計(jì)分析后,對(duì)總體作出估計(jì)和判斷。,.,一般地,設(shè)一個(gè)總體含有N個(gè)個(gè)體,從中逐個(gè)不放回地抽取n個(gè)個(gè)體作為樣本(nN),如果每次抽取使總體內(nèi)的各個(gè)個(gè)體被抽到的機(jī)會(huì)都相等,就把這種抽樣方法叫做簡(jiǎn)單隨機(jī)抽樣。抽樣方法主要包括:隨機(jī)抽樣、分層抽樣、整體抽樣、系統(tǒng)抽樣。,樣本:,樣本,樣本又叫子樣,是從總體中抽出來(lái)一部分個(gè)體的集合。樣本中每個(gè)個(gè)體叫樣品,樣本中所包含樣品數(shù)目稱為樣本大小,又叫樣本量,常用n表示。對(duì)樣本的特性進(jìn)行測(cè)定,所得的數(shù)據(jù)稱為樣本值。當(dāng)樣本個(gè)數(shù)越多時(shí),分析結(jié)果越接近總體的值,樣本對(duì)總體的代表性就越好。,抽樣方法,用的統(tǒng)計(jì)抽樣方法主要有以下三種,隨機(jī)抽樣法分層抽樣法系統(tǒng)抽樣法,書業(yè)公司,抽樣方法,隨機(jī)抽樣,指總體中每一個(gè)個(gè)體都有同等可能的機(jī)會(huì)被抽到。這種抽樣方法事先不能考慮抽取哪一個(gè)樣品,完全用偶然方法抽樣,常用抽簽或利用隨機(jī)數(shù)表來(lái)抽取樣品以保證樣品代表性。,當(dāng)圖書品種不多時(shí),隨機(jī)抽樣是一種有效的抽樣方法;,抽樣方法,分層抽樣,分層抽樣是先將總體按照研究?jī)?nèi)容密切有關(guān)的主要因素分類或分層,然后在各層中按照隨機(jī)原則抽取樣本。分層抽樣可以減少層內(nèi)差異,增加樣本的代表性。,當(dāng)?shù)截洰a(chǎn)品較多時(shí),分層抽樣是一種有效的抽樣方法;,抽樣方法,系統(tǒng)抽樣,從總體中每隔K個(gè)個(gè)體抽取一個(gè)個(gè)體的抽樣方法,比值K是總體容量N與樣本容量n之比;,當(dāng)出版商批量發(fā)貨及產(chǎn)品特別多時(shí),并且易作某種次序的整理時(shí),系統(tǒng)抽樣比分層抽樣好;,1,2,.KK+1,K+2,.,2K2K+1,2K+2,.,3K直到N為止,例,從具有1000個(gè)個(gè)體的總體中抽取50個(gè)個(gè)體。,總體、樣本、數(shù)據(jù)間的關(guān)系,總體,樣本,結(jié)論,數(shù)據(jù),抽樣,分析,管理,測(cè)試,數(shù)理整理和統(tǒng)計(jì),抽樣的目的是通過(guò)樣本來(lái)反映總體。在書業(yè)公司經(jīng)營(yíng)管理中,常常將測(cè)試的樣本數(shù)據(jù),通過(guò)整理加工,找出它們的特性,從而推斷總體的變化規(guī)律、趨勢(shì)和性質(zhì)。一批數(shù)據(jù)的分布情況,可以用中心傾向及數(shù)據(jù)的分散程度來(lái)表示,表示中心傾向的有平均值、中位值等,表示數(shù)據(jù)分散程度的有方差、標(biāo)準(zhǔn)偏差、極差等。,描述總體數(shù)據(jù)離散程度的參數(shù)為方差2,描述總體數(shù)據(jù)中心傾向的數(shù)為均值。若利用樣本參數(shù)近似描述總體狀況時(shí),可以利用樣本方差S2近似代替總體方差2,利用樣本均值X近似代替總體均值p。,數(shù)理整理和統(tǒng)計(jì),樣本平均值,樣本中位值,X=,X1+X2+X3.+Xn,n,中位值是按照數(shù)據(jù)大小順序排列位于中間的數(shù)值,中位值記為X,若n為偶數(shù),則取位于中間兩個(gè)數(shù)值的平均值為中位值;,數(shù)理整理和統(tǒng)計(jì),樣本極差,樣本方差和樣本標(biāo)準(zhǔn)偏差,樣本方差和樣本標(biāo)準(zhǔn)差就是用來(lái)度量數(shù)據(jù)波動(dòng)幅度大小的一個(gè)重要特性值。樣本方差是一組數(shù)據(jù)中每一個(gè)數(shù)值與平均值之差的平方和的平均值,通常記為S2;樣本方差的平方根S稱作樣本標(biāo)準(zhǔn)偏差,它與樣本方差一樣,是反映一組數(shù)據(jù)分散程度的特性值:,樣本極差表示一組數(shù)據(jù)分布的范圍,是指數(shù)據(jù)中最大值與最小值的差:R=Xmax-Xmin,2、聚類分析,聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過(guò)程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。聚類分析是一種探索性的分析,在分類的過(guò)程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。聚類分析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。,.,分類,俗語(yǔ)說(shuō),物以類聚、人以群分。但什么是分類的根據(jù)呢?比如,要想把中國(guó)的縣分成若干類,就有很多種分類法;可以按照自然條件來(lái)分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來(lái)分類,也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類。,.,聚類分析,對(duì)于一個(gè)數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))進(jìn)行分類(相當(dāng)于對(duì)數(shù)據(jù)中的列分類),也可以對(duì)觀測(cè)值(事件,樣品)來(lái)分類(相當(dāng)于對(duì)數(shù)據(jù)中的行分類)。比如學(xué)生成績(jī)數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(jī)(或者綜合考慮各科成績(jī))分類,當(dāng)然,并不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類。下面要介紹的分類的方法稱為聚類分析(clusteranalysis)。對(duì)變量的聚類稱為R型聚類,而對(duì)觀測(cè)值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對(duì)稱的,沒(méi)有什么不同。,.,飲料數(shù)據(jù)(drink.sav),16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量,.,如何度量遠(yuǎn)近?,如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類,如果僅僅知道他們的數(shù)學(xué)成績(jī),則只好按照數(shù)學(xué)成績(jī)來(lái)分類;這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類。如果還知道他們的物理成績(jī),這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn),也可以按照距離遠(yuǎn)近來(lái)分類。三維或者更高維的情況也是類似;只不過(guò)三維以上的圖形無(wú)法直觀地畫出來(lái)而已。在飲料數(shù)據(jù)中,每種飲料都有四個(gè)變量值。這就是四維空間點(diǎn)的問(wèn)題了。,.,聚類分析,1、系統(tǒng)聚類法-(分層聚類)系統(tǒng)聚類法是應(yīng)用最廣泛的一種(HierarchicalCluster過(guò)程)1)、聚類原則:都是相近的聚為一類,即距離最近或最相似的聚為一類。2)、分層聚類的方法可以用于樣本聚類(Q)型,也可以用于變量聚類(R型)。2、非系統(tǒng)聚類法-(快速聚類法-K-均值聚類法)(K-meansCluster)3、兩步聚類法-一種探索性的聚類方法(TwoStepCluster),.,K-均值聚類分析K-meansCluster,又稱為快速樣本聚類法,是非系統(tǒng)聚類中最常用的聚類法。優(yōu)點(diǎn):是占內(nèi)存少、計(jì)算量小、處理速度快,特別適合大樣本的聚類分析。缺點(diǎn):應(yīng)用范圍有限,要求用戶制定分類數(shù)目(要告知),只能對(duì)觀測(cè)量(樣本)聚類,而不能對(duì)變量聚類,且所使用的聚類變量必須都是連續(xù)性變量。,.,所有會(huì)員位置圖代碼和結(jié)果見(jiàn)Excel表,.,時(shí)間序列分析(timeseriesanalysis)方法,強(qiáng)調(diào)的是通過(guò)對(duì)一個(gè)區(qū)域進(jìn)行一定時(shí)間段內(nèi)的連續(xù)遙感觀測(cè),提取圖像有關(guān)特征,并分析其變化過(guò)程與發(fā)展規(guī)模。當(dāng)然,首先需要根據(jù)檢測(cè)對(duì)象的時(shí)相變化特點(diǎn)來(lái)確定遙感監(jiān)測(cè)的周期,從而選擇合適的遙感數(shù)據(jù)。,時(shí)間序列分析(timeseriesanalysis),.,時(shí)間序列的基本概念,一、時(shí)間序列1、含義:指被觀察到的依時(shí)間為序排列的數(shù)據(jù)序列。2、特點(diǎn):(1)現(xiàn)實(shí)的、真實(shí)的一組數(shù)據(jù),而不是數(shù)理統(tǒng)計(jì)中做實(shí)驗(yàn)得到的。既然是真實(shí)的,它就是反映某一現(xiàn)象的統(tǒng)計(jì)指標(biāo),因而,時(shí)間序列背后是某一現(xiàn)象的變化規(guī)律。(2)動(dòng)態(tài)數(shù)據(jù)。,.,.,2010年11月17日-2011年4月8日上證綜指,.,二、時(shí)間序列分析時(shí)間序列分析:是一種根據(jù)動(dòng)態(tài)數(shù)據(jù)揭示系統(tǒng)動(dòng)態(tài)結(jié)構(gòu)和規(guī)律的統(tǒng)計(jì)方法。其基本思想:根據(jù)系統(tǒng)的有限長(zhǎng)度的運(yùn)行記錄(觀察數(shù)據(jù)),建立能夠比較精確地反映序列中所包含的動(dòng)態(tài)依存關(guān)系的數(shù)學(xué)模型,并借以對(duì)系統(tǒng)的未來(lái)進(jìn)行預(yù)報(bào),.,三、確定性時(shí)間序列分析與隨機(jī)性時(shí)間序列分析:時(shí)間序列依據(jù)其特征,有以下幾種表現(xiàn)形式,并產(chǎn)生與之相適應(yīng)的分析方法:(1)長(zhǎng)期趨勢(shì)變化受某種基本因素的影響,數(shù)據(jù)依時(shí)間變化時(shí)表現(xiàn)為一種確定傾向,它按某種規(guī)則穩(wěn)步地增長(zhǎng)或下降。使用的分析方法有:移動(dòng)平均法、指數(shù)平滑法、模型擬和法等;,.,(2)季節(jié)性周期變化受季節(jié)更替等因素影響,序列依一固定周期規(guī)則性的變化,又稱商業(yè)循環(huán)。采用的方法:季節(jié)指數(shù);(3)循環(huán)變化周期不固定的波動(dòng)變化。,.,(4)隨機(jī)性變化由許多不確定因素引起的序列變化。它所使用的分析方法就是我們要講的時(shí)間序列分析。趨勢(shì)變化分析確定性變化分析周期變化分析循環(huán)變化分析時(shí)間序列分析隨機(jī)性變化分析:AR、MA、ARMA模型,.,Wold分解定理(1938),對(duì)于任何一個(gè)離散平穩(wěn)過(guò)程它都可以分解為兩個(gè)不相關(guān)的平穩(wěn)序列之和,其中一個(gè)為確定性的,另一個(gè)為隨機(jī)性的,不妨記作其中:為確定性序列,為隨機(jī)序列,它們需要滿足如下條件(1)(2)(3),.,確定性序列與隨機(jī)序列的定義,對(duì)任意序列而言,令關(guān)于q期之前的序列值作線性回歸其中為回歸殘差序列,。確定性序列,若隨機(jī)序列,若,.,Cramer分解定理(1961),任何一個(gè)時(shí)間序列都可以分解為兩部分的疊加:其中一部分是由多項(xiàng)式?jīng)Q定的確定性趨勢(shì)成分,另一部分是平穩(wěn)的零均值誤差成分,即,確定性影響,隨機(jī)性影響,.,循環(huán)變動(dòng)C(Cyclical),不規(guī)則變動(dòng)I(Irregular),季節(jié)變動(dòng)S(Seasonal),.,對(duì)兩個(gè)分解定理的理解,Wold分解定理說(shuō)明任何平穩(wěn)序列都可以分解為確定性序列和隨機(jī)序列之和。它是現(xiàn)代時(shí)間序列分析理論的靈魂,是構(gòu)造ARMA模型擬合平穩(wěn)序列的理論基礎(chǔ)。Cramer分解定理是Wold分解定理的理論推廣,它說(shuō)明任何一個(gè)序列的波動(dòng)都可以視為同時(shí)受到了確定性影響和隨機(jī)性影響的綜合作用。平穩(wěn)序列要求這兩方面的影響都是穩(wěn)定的,而非平穩(wěn)序列產(chǎn)生的機(jī)理就在于它所受到的這兩方面的影響至少有一方面是不穩(wěn)定的。,.,確定性時(shí)序分析的目的,克服其它因素的影響,單純測(cè)度出某一個(gè)確定性因素對(duì)序列的影響推斷出各種確定性因素彼此之間的相互作用關(guān)系及它們對(duì)序列的綜合影響,.,4-3-2時(shí)間序列趨勢(shì)分析,目的有些時(shí)間序列具有非常顯著的趨勢(shì),我們分析的目的就是要找到序列中的這種趨勢(shì),并利用這種趨勢(shì)對(duì)序列的發(fā)展作出合理的預(yù)測(cè)常用方法趨勢(shì)擬合法平滑法,.,趨勢(shì)擬合法,趨勢(shì)擬合法就是把時(shí)間作為自變量,相應(yīng)的序列觀察值作為因變量,建立序列值隨時(shí)間變化的回歸模型的方法分類線性擬合非線性擬合,.,線性擬合,使用場(chǎng)合長(zhǎng)期趨勢(shì)呈現(xiàn)出線形特征模型結(jié)構(gòu),.,例:擬合澳大利亞政府19811990年每季度的消費(fèi)支出序列,.,線性擬合,模型參數(shù)估計(jì)方法最小二乘估計(jì)參數(shù)估計(jì)值,.,擬合效果圖,.,非線性擬合,使用場(chǎng)合長(zhǎng)期趨勢(shì)呈現(xiàn)出非線形特征參數(shù)估計(jì)指導(dǎo)思想能轉(zhuǎn)換成線性模型的都轉(zhuǎn)換成線性模型,用線性最小二乘法進(jìn)行參數(shù)估計(jì)實(shí)在不能轉(zhuǎn)換成線性的,就用迭代法進(jìn)行參數(shù)估計(jì),.,常用非線性模型,.,例:對(duì)上海證券交易所每月末上證指數(shù)序列進(jìn)行模型擬合,.,非線性擬合,模型變換參數(shù)估計(jì)方法線性最小二乘估計(jì)擬合模型:,.,擬合效果圖,.,時(shí)間序列預(yù)測(cè)法時(shí)間序列預(yù)測(cè)法可用于短期預(yù)測(cè)、中期預(yù)測(cè)和長(zhǎng)期預(yù)測(cè)。根據(jù)對(duì)資料分析方法的不同,又可分為:簡(jiǎn)單序時(shí)平均數(shù)法、加權(quán)序時(shí)平均數(shù)法,.,平滑法,平滑法是進(jìn)行趨勢(shì)分析和預(yù)測(cè)時(shí)常用的一種方法。它是利用修勻技術(shù),削弱短期隨機(jī)波動(dòng)對(duì)序列的影響,使序列平滑化,從而顯示出長(zhǎng)期趨勢(shì)變化的規(guī)律,.,簡(jiǎn)單平均數(shù)法:也稱算術(shù)平均法。即把若干歷史時(shí)期的統(tǒng)計(jì)數(shù)值作為觀察值,求出算術(shù)平均數(shù)作為下期預(yù)測(cè)值。這種方法基于下列假設(shè):“過(guò)去這樣,今后也將這樣”,把近期和遠(yuǎn)期數(shù)據(jù)等同化和平均化,因此只能適用于事物變化不大的趨勢(shì)預(yù)測(cè)。如果事物呈現(xiàn)某種上升或下降的趨勢(shì),就不宜采用此法。加權(quán)平均數(shù)法:就是把各個(gè)時(shí)期的歷史數(shù)據(jù)按近期和遠(yuǎn)期影響程度進(jìn)行加權(quán),求出平均值,作為下期預(yù)測(cè)值。,.,.,移動(dòng)平均法,基本思想假定在一個(gè)比較短的時(shí)間間隔里,序列值之間的差異主要是由隨機(jī)波動(dòng)造成的。根據(jù)這種假定,我們可以用一定時(shí)間間隔內(nèi)的平均值作為某一期的估計(jì)值分類n期中心移動(dòng)平均n期移動(dòng)平均,.,移動(dòng)平均期數(shù)確定的原則,事件的發(fā)展有無(wú)周期性以周期長(zhǎng)度作為移動(dòng)平均的間隔長(zhǎng)度,以消除周期效應(yīng)的影響對(duì)趨勢(shì)平滑的要求移動(dòng)平均的期數(shù)越多,擬合趨勢(shì)越平滑對(duì)趨勢(shì)反映近期變化敏感程度的要求移動(dòng)平均的期數(shù)越少,擬合趨勢(shì)越敏感,.,移動(dòng)平均預(yù)測(cè),.,時(shí)間序列模型的基本概念及其適用性,.,時(shí)間序列模型的基本概念,隨機(jī)時(shí)間序列模型(nimeseriesmodeling)是指僅用它的過(guò)去值及隨機(jī)擾動(dòng)項(xiàng)所建立起來(lái)的模型,其一般形式為Yn=F(Yn-1,Yn-2,n)建立具體的時(shí)間序列模型,需解決如下三個(gè)問(wèn)題:(1)模型的具體形式(2)時(shí)序變量的滯后期(3)隨機(jī)擾動(dòng)項(xiàng)的結(jié)構(gòu),.,例如,取線性方程、一期滯后以及白噪聲隨機(jī)擾動(dòng)項(xiàng)(n=n),模型將是一個(gè)1階自回歸過(guò)程AR(1):Yn=aYn-1+n這里,n特指一白噪聲。,一般的p階自回歸過(guò)程AR(p)是Yn=a1Yn-1+a2Yn-2+apYn-p+n(*),.,(1)如果隨機(jī)擾動(dòng)項(xiàng)是一個(gè)白噪聲(n=n),則稱(1)式為一純AR(p)過(guò)程(pureAR(p)process),記為Yn=a1Yn-1+a2Yn-2+apYn-p+n(2)如果n不是一個(gè)白噪聲,通常認(rèn)為它是一個(gè)q階的移動(dòng)平均(movingaverage)過(guò)程MA(q):n=n-c1n-1-c2n-2-cqn-q該式給出了一個(gè)純MA(q)過(guò)程(pureMA(p)process)。,一般的p階自回歸過(guò)程AR(p)是Yn=a1Yn-1+a2Yn-2+a
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小組策劃活動(dòng)方案
- 工地宰羊過(guò)節(jié)活動(dòng)方案
- 少年向上活動(dòng)方案
- 小小特種兵訓(xùn)練活動(dòng)方案
- 展播心得征集活動(dòng)方案
- 小微企業(yè)信貸活動(dòng)方案
- 希望小屋走訪活動(dòng)方案
- 工會(huì)作品征集活動(dòng)方案
- 巧手搭建活動(dòng)方案
- 小班教育活動(dòng)方案
- 武繼祥-矯形器的臨床應(yīng)用
- 云南省昆明市盤龍區(qū)2024年八年級(jí)下學(xué)期期末數(shù)學(xué)試卷附答案
- 2022-2023學(xué)年河南省鄭州市高一下學(xué)期期末考試數(shù)學(xué)試題(解析版)
- 2023初三一模閔行英語(yǔ)卷+答案
- 園區(qū)零碳園區(qū)建設(shè)方案
- +畢業(yè)試卷(試題)-2023-2024學(xué)年六年級(jí)下冊(cè)數(shù)學(xué)蘇教版
- 工程管理之施工資料管理培訓(xùn)
- 變壓器油箱焊接工藝
- 國(guó)學(xué)療愈行業(yè)分析
- 小學(xué)低年級(jí)自主識(shí)字的教學(xué)策略
- (2023)義務(wù)教育新課程標(biāo)準(zhǔn)生物(2022年版)必考試題含答案
評(píng)論
0/150
提交評(píng)論