數(shù)據(jù)分析上機實驗模擬題_第1頁
數(shù)據(jù)分析上機實驗模擬題_第2頁
數(shù)據(jù)分析上機實驗模擬題_第3頁
數(shù)據(jù)分析上機實驗模擬題_第4頁
數(shù)據(jù)分析上機實驗模擬題_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)分析上機實驗模擬題一第一章 數(shù)據(jù)的描述性分析 1建立數(shù)據(jù)集設有數(shù)據(jù)集如下:LIMING 23 56 170 LIUHUA 25 60 174 ZHANGWEI 30 65 165相應變量分別為NAME,AGE,WEIGHT和HEIGHT,輸入數(shù)據(jù)以建立一個名為exe_1的SAS數(shù)據(jù)集,并打印輸出2數(shù)據(jù)的描述性分析例1.2對血清蛋白含量,利用PROCUNIVARITE過程,求數(shù)據(jù)的方差、標準差、變異系數(shù)、極差、四分位極差、四分位標準差,程序如下:練習:利用MEANS過程求上述基本統(tǒng)計量。二回歸分析1線性回歸模型及其參數(shù)估計(模型及矩陣表示、參數(shù)估計及性質);矩陣表示 2統(tǒng)計推斷(回歸方程的顯

2、著性檢驗、回歸系數(shù)的顯著性檢驗、預測及其置信區(qū)間、與回歸系數(shù)有關的假設檢驗的一般方法);(1) 回歸方程的顯著性檢驗: , ,檢驗假設:,統(tǒng)計量,時,拒絕(2)回歸系數(shù)的統(tǒng)計推斷:檢驗假設,統(tǒng)計量,拒絕的置信區(qū)間:(3)預測及統(tǒng)計推斷:的置信區(qū)間:3殘差分析及處理措施(誤差的正態(tài)性檢驗、殘差圖分析、Box-Cox變換);(1)誤差的正態(tài)性檢驗1)殘差正態(tài)性的頻率檢驗2)殘差的正態(tài)QQ圖檢驗近似一條直線,(2)殘差圖分析3)Box-Cox變換選擇,使最小4回歸方程的選?。?)窮舉法評價回歸方程優(yōu)良性的準則:修正的復相關系數(shù)準則;準則,預測平方和準則(2)逐步回歸法例2.3某科學基金會的管理人員欲

3、了解從事研究工作的中、高水平的數(shù)學家的年工資額Y與他們的研究成果的質量指標、從事研究工作的時間以及能獲得資助的指標為此按一定的設計方案調查了24位此類型的數(shù)學家,得數(shù)據(jù)如書上表2.3所示(1)假設誤差服從分布,建立與之間的線性回歸方程并研究相應的統(tǒng)計推斷問題(2)假設某位數(shù)學家的關于的值為,試預測他的年工資額并給出置信度為95%的置信區(qū)間三方差分析-單因素1.單因素方差分析(1)統(tǒng)計模型因變量Y因素,水平,上觀測值,(2) 顯著檢驗,拒絕(3)置信區(qū)間(略)置信度的置信區(qū)間, 置信度的置信區(qū)間為個的置信度至少的同時置信區(qū)間2.雙因素等重復試驗下的方差分析(1)統(tǒng)計模型Y因素和B,水平,組合水平

4、觀測值, 為無偏估計假設成立時,分別服從分布(2)顯著檢驗假設檢驗問題:統(tǒng)計量 檢驗值:如,拒絕相應假設(3)無交互效應的各因素均值的估計與比較(4)有交互效應時因素各水平組合上的均值估計與比較例31 為比較同一類型的三種不同食譜的營養(yǎng)效果,將19只幼鼠分為三組,每組分別為8只、4只、7只,各采用這三種食譜喂養(yǎng)假定其他條件均保持相同,12周后測得其體重增加量如表3.3所示,設體重增加服從方差分析模型(3.1)或(3.2),試比較這三種食譜的營養(yǎng)效果是否有顯著差異表3.3 三種食譜下幼鼠的體重增加量 食譜 體重增加量 甲 164 190 203 205 206 214 228 257乙 185

5、197 201 231 丙 187 212 215 220 248 265 281 四主成分分析、典型相關分析1主成分分析(1)基于協(xié)方差矩陣的總體主成分的求法 (基于相關系數(shù)矩陣類似)維隨機變量,協(xié)方差陣非負定主成分定義:滿足:(1)系數(shù)向量單位化; (2)各主成分不相關,無重疊信息,;(3)主成分方差由此遞減求總體主成分步驟:1)解,求的p個特征值;2)對應的正交單位化的特征向量分別為;其中 ,3)的第個主成分為;為個主成分構成的隨機向量4)主成分的貢獻率與累計貢獻率第k個主成份的貢獻率前k個主成份的累積貢獻率(2)基于樣本協(xié)方差矩陣的主成分分析(基于樣本相關系數(shù)矩陣類似)來自于總體的容量

6、為的樣本觀測數(shù)據(jù),樣本協(xié)方差矩陣其中 ,為的樣本均值步驟:1)求特征值2)相應的正交單位化特征向量,3)第個樣本主成分, 4) 第k個樣本主成分的貢獻率前k個主成分的累積貢獻率5)第個樣本主成分的個觀測值稱為第個樣本主成分的得分,可以依據(jù)得分對各組樣本觀測數(shù)據(jù)進行排序()樣本主成分的觀測數(shù)據(jù)(得分向量)例4.3對10名男中學生的身高()、胸圍()、體重()進行測量,得數(shù)據(jù)如表4.2,從協(xié)方差矩陣出發(fā)對其做主成分分析,按照第一主成分排名表4.2 10名男中學生的身高、胸圍及體重數(shù)據(jù)序 號 身高x1(cm) 胸圍x3(cm) 體重x3(cm)1 149.5 69.5 38.52 162.5 77.

7、0 55.53 162.7 78.5 50.84 162.2 87.5 65.55 156.5 74.5 49.06 156.1 74.5 45.57 172.0 76.5 51.08 173.2 81.5 59.59 159.5 74.5 43.510 157.7 79.0 53.52典型相關分析(1)總體典型變量的定義設有兩組隨機變量,的協(xié)方差矩陣為其中這里假定滿秩矩陣(為正定矩陣),不妨設.1)構造典型變量為第對典型變量. 確定,滿足(2)總體典型變量與典型相關系數(shù)的求法(1)求,則具有相同的非零特征根設為的特征根,則為的前個(非負)特征根,其它特征根為0.(2)設和分別為的前個特征根對

8、應的正交化單位向量,則的第對典型變量為(3)典型相關系數(shù)為.(3)樣本典型相關分析兩組隨機變量,組觀測數(shù)據(jù) , 標準化樣本 樣本相關系數(shù)矩陣為總體為相關系數(shù)矩陣的估計,以替代即可(4)典型相關系數(shù)的顯著性檢驗統(tǒng)計量檢驗值為 若,拒絕依次就進行檢驗,若對某個,檢驗值首次滿足,則認為只有前對典型變量顯著相關,選取前對即可注意:利用樣本協(xié)方差矩陣,分析方法一樣不需要對數(shù)據(jù)標準化處理例4.6為研究空氣溫度與土壤溫度的關系,考慮六個變量日最高土壤溫度; 日最低土壤溫度; 日土壤溫度積分值; 日最高氣溫; 日最低氣溫; 日氣溫曲線積分值觀測了天,數(shù)據(jù)如書上表4.7,做典型相關分析五聚類分析1快速聚類(1)

9、歐氏距離快速聚類法(采用明氏距離距離快速聚類法類似)指定分類數(shù)為,聚類中采用的距離是歐氏距離(默認的)1)按照最小最大原則,選取個初始聚點的集合分類原則最小距離法:每個樣品以最靠近的初始聚點歸類,得到類的初始分類結果其中 2)從出發(fā),計算新的聚點集合以的重心作為新的聚點,其中是類中的樣品數(shù)得到新的聚點集合從出發(fā),將樣品作新的分類,得依次計算下去3)設在第m步得到聚點集和分類 新聚點集 和新分類集 4)判斷記 給定,若 則遞推計算過程結束,Proc fastclus過程中,的默認值為0.02為最終分類結果,為最終的分類中心2系統(tǒng)聚類法(1)類間距離及其遞推公式記,和為兩個類,含樣品數(shù)和類的重心類

10、與類之間的距離記為和合并得,類間距離、與其他類的類間距離遞推公式有4種:1)最短距離、遞推公式兩類中樣品之間距離最短者作為類間距離2)最長距離、遞推公式兩類中樣品之間距離最長者3)類平均距離、遞推公式兩類中所有兩兩樣品之間的距離的平均4)重心距離、遞推公式兩類的重心之間的距離作為兩類間的距離(2)譜系聚類法的步驟 1)n個樣品開始時作為n個類,計算兩兩之間的距離,構成一個對稱距離矩陣 此時2)選擇中主對角線以下(或以上)最小元素,設為,這時與,將與合并為新類在中消去與對應的行與列,加入新類與剩下未聚合的類間距離所組成的一行和一列,得新的階距離矩陣3)重復步驟(2),得, n個樣品聚為一個大類4

11、)記下合并樣品的編號及兩類合并時的距離(稱為距離水平),繪制聚類譜系圖例 6.1 對13個國家1990年,1995年與200年的可持續(xù)發(fā)展綜合國力做評估,其得分值如表6.1所示(1)試用快速聚類法將上述13個國家聚為4類:距離采用用歐式距離法; (2)按最短距離法方法進行譜系聚類分析,采用標準化數(shù)據(jù)聚類并給出聚為4類結果六判別分析(1)馬氏距離的定義總體,均值向量, 協(xié)方差矩陣,來自的馬氏平方距離與的馬氏平方距離總體,均值向量, 協(xié)方差矩陣總體的馬氏距離(2)距離判別準則-以兩總體為例個總體,均值向量,協(xié)方差矩陣待判樣品,計算到各總體的馬氏距離并比較,判定屬于馬氏距離最小的總體1) 總體協(xié)方差

12、矩陣相等:l 總體距離判別準則對任意兩個總體,樣品到的馬氏平方距離差:則 其中 而 距離判別準則為:若總體滿足: , 則判定l 利用樣本數(shù)據(jù)的距離判別準則均值向量及公共協(xié)方差矩陣,分別用訓練樣本估計代替距離判別準則為:, 判定其中,線性判別函數(shù)的估計為l 特別:重點掌握兩總體情形,2)不全相等為二次判別函數(shù),表示樣品到總體的馬氏平方距離l 多總體距離判別準則: 則判定l 特別:兩總體情形(3)誤判率的估計設來自兩總體()誤判率的回判估計誤判率的交叉確認估計特別兩總體情形(3)兩總體Bayes判別判別準則為特殊情形:1)重點則判別準則為 即按照后驗概率大小來劃分 其中后驗概率兩個正態(tài)總體的Bayes判別稱后驗概率最優(yōu)劃分兩正態(tài)總體一般判別準則特殊情形Ø判別準則(等價于)其中后驗概率 =廣義平方距離函數(shù)當未知時,分別用來估計,可得線

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論