醫(yī)學(xué)統(tǒng)計(10).ppt_第1頁
醫(yī)學(xué)統(tǒng)計(10).ppt_第2頁
醫(yī)學(xué)統(tǒng)計(10).ppt_第3頁
醫(yī)學(xué)統(tǒng)計(10).ppt_第4頁
醫(yī)學(xué)統(tǒng)計(10).ppt_第5頁
已閱讀5頁,還剩178頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

醫(yī)學(xué)統(tǒng)計學(xué) 10 數(shù)據(jù)挖掘分析 第二部分 Logistic回歸 第一部分 Logistic回歸 第一部分 回歸分析的分類 多個因變量 y1 y2 yk 一個因變量y 多重線性回歸logistic回歸 logistic回歸 logisticregression 是研究因變量為二分類或多分類觀察結(jié)果與影響因素 自變量 之間關(guān)系的一種多變量分析方法 屬概率型非線性回歸 logistic回歸的分類 1 二分類資料logistic回歸 因變量為兩分類變量的資料 可用非條件logistic回歸和條件logistic回歸進(jìn)行分析 非條件logistic回歸多用于非配比病例 對照研究或隊列研究資料 條件logistic回歸多用于配對或配比資料 2 多分類資料logistic回歸 因變量為多項分類的資料 可用多項分類logistic回歸模型或有序分類logistic回歸模型進(jìn)行分析 隊列研究 cohortstudy 也稱前瞻性研究 隨訪研究等 是一種由因及果的研究 在研究開始時 根據(jù)以往有無暴露經(jīng)歷 將研究人群分為暴露人群和非暴露人群 在一定時期內(nèi) 隨訪觀察和比較兩組人群的發(fā)病率或死亡率 如果兩組人群發(fā)病率或死亡率差別有統(tǒng)計學(xué)意義 則認(rèn)為暴露和疾病間存在聯(lián)系 隊列研究驗證的暴露因素在研究開始前已存在 研究者知道每個研究對象的暴露情況 RR 相對危險度relativerisk 表示暴露組與非暴露組發(fā)病率 或死亡率 的比值 也稱為危險比 riskratio 反映了暴露與疾病發(fā)生的關(guān)聯(lián)強度 RR表明暴露組發(fā)病或死亡的危險是非暴露組的多少倍 病例對照研究 case controlstudies 一種由果及因的回顧性研究 先按疾病狀態(tài)確定調(diào)查對象 分為病例 case 和對照 control 兩組 然后利用已有的記錄 或采用詢問 填寫調(diào)查表等方式 了解其發(fā)病前的暴露情況 并進(jìn)行比較 推測疾病與暴露間的關(guān)系 病例對照研究的類型 一 病例與對照不匹配 非條件logistic回歸在設(shè)計所規(guī)定的病例和對照人群中 分別抽取一定量的研究對象 一般對照應(yīng)等于或多于病例數(shù) 此外無其他任何限制 二 病例與對照匹配 條件logistic回歸匹配或稱配比 matching 即要求對照在某些因素或特征上與病例保持一致 目的是對兩組比較時排除混雜因素的干擾 匹配分為成組匹配和個體匹配 非條件logistic回歸 應(yīng)變量為二分類資料一個二分類自變量兩個 多個 二分類自變量無序多分類自變量有序多分類自變量引入數(shù)值型自變量應(yīng)變量為有序多分類資料應(yīng)變量為無序多分類資料 二分類資料的logistic回歸 二分類logistic回歸對自變量沒有特殊要求 自變量可以是分類變量 包括二分類和多分類變量 和數(shù)值變量 二分類資料的logistic回歸通過SPSS統(tǒng)計軟件的二元Logistic過程實現(xiàn)統(tǒng)計分析 例1 某醫(yī)師為研究婦女服避孕藥與子代染色體異常的關(guān)系 分別調(diào)查了子代染色體異常和正常的同齡組兒童的母親54名和196名 結(jié)果如表 試對此資料進(jìn)行分析 能否提出子代染色體異常與其母在孕前6個月內(nèi)服用避孕藥有關(guān) SPSS軟件操作 第1步 定義變量 第2步 輸入原始數(shù)據(jù) 第3步 加權(quán)設(shè)置 選擇數(shù)據(jù) 加權(quán)個案 W 將f移入頻率變量 第4步 logistic回歸分析 1 選擇分析 回歸 二元logistic 第4步 logistic回歸分析 2 將a和b分別移入?yún)f(xié)變量和因變量 自變量全部進(jìn)入模型向前逐步選擇法向后逐步剔除法條件 將變量剔除出模型的依據(jù)是條件參數(shù)估計的似然比統(tǒng)計量的概率值 LR 將變量剔除出模型的依據(jù)是最大偏似然估計的似然比統(tǒng)計量的概率值 Wald 將變量剔除出模型的依據(jù)是Wald統(tǒng)計量的概率值 第4步 logistic回歸分析 3 設(shè)置選項勾上exp B 的95CI 第4步 logistic回歸分析 4 結(jié)果解讀 OR 3 200 p 0 000OR的95 CI為 1 712 5 983 Exp B eB 值得注意的是病例 對照研究中 病例與對照兩組人數(shù)的比例是人為規(guī)定的 不代表自然人群中真實的病人與正常人的比值 因此 根據(jù)病例一對照研究資料建立的Logistic回歸方程中 常數(shù)項意義不大 主要針對結(jié)果中自變量的回歸系數(shù)及其相應(yīng)的比數(shù)比OR值的意義作解釋 不宜直接用于所研究事件發(fā)生概率的預(yù)測和判別 兩個二分類自變量的logistic回歸 兩個自變量均為兩水平的二分類資料的Logistic回歸分析與一個自變量為兩水平的二分類資料的Logistic回歸分析在步驟方法上是相同的 只是增加了一個自變量 在建立Logistic回歸方程時需要對兩個自變量對應(yīng)的參數(shù)進(jìn)行估計 計算兩個比數(shù)比 另外 兩個自變量均有意義時 看哪個影響作用更大些 與多重線性回歸一樣 也是比較標(biāo)準(zhǔn)偏回歸系數(shù)絕對值的大小 無序多分類自變量的Logistic回歸 自變量是一個或多個為無序多分類變量時 其Logistic回歸在方法上同上述二分類資料的Logistic回歸 只要對自變量的不同水平構(gòu)造啞變量即可 某一多分類無序自變量可構(gòu)造的啞變量數(shù)等于該自變量的分類數(shù)減1 將啞變量引入模型 其結(jié)果無論有無統(tǒng)計學(xué)意義 都是相對事先確定某一類為基準(zhǔn)對照而言的 SPSS對字符型多分類無序自變量 系統(tǒng)默認(rèn)以最后的那個分類為對照 有序多分類自變量的Logistic回歸 Logistic回歸中自變量為有序多分類變量 即等級變量 如文化程度可分為文盲 小學(xué) 中學(xué) 大學(xué)及以上等 這種資料的Logistic回歸分兩種情況處理 如果自變量的等級分組與logit P 呈線性關(guān)系 即等級效應(yīng)等比例增加或減少 則該自變量可以作為一個數(shù)值型自變量引人模型 否則 將等級變量視為無序多分類自變量 以啞變量的形式引入模型進(jìn)行分析 引入數(shù)值型自變量的Logistic回歸 數(shù)值變量直接引入模型 得到相應(yīng)的比數(shù)比OR是指自變量增加一個單位 如年齡增加1歲 比數(shù)自然對數(shù)值的變化量 若將數(shù)值自變量分成幾組 如自變量年齡按10歲間隔分組引人模型時 其OR值是指年齡每增加10歲比數(shù)自然對數(shù)值的變化量 數(shù)值型變量轉(zhuǎn)換成分類變量的臨界點選擇 最佳的方法是采用ROC分析 例2 為了探索有關(guān)危險因素和保護(hù)因素 對32例胃癌病人和32例對照者進(jìn)行病例對照研究 考察的危險因素作為自變量 分別為 x1 年齡 x2 蛋白質(zhì)攝入量由低到高 0 1 2 3 4 x3 新鮮蔬菜及水果食用情況 良好 一般 不足 嚴(yán)重不足為0 1 2 3 x4 吃鹽量高食物由輕到重為 0 1 2 3 4 x5 飲食習(xí)慣 從良好 一般 不良 嚴(yán)重不良為 0 1 2 3 x6 精神心理因素 從樂觀 較樂觀 一般 不良為0 1 2 3 Y 是否患胃癌作為因變量 0未患 1患者 SPSS軟件操作 第1步 定義變量 第2步 輸入原始數(shù)據(jù) 第3步 logistic回歸分析 1 選擇分析 回歸 二元logistic 第3步 logistic回歸分析 2 將x1 6和y分別移入?yún)f(xié)變量和因變量 第3步 logistic回歸分析 3 設(shè)置選項勾上exp B 的95CI 第3步 logistic回歸分析 4 結(jié)果解讀 給出各因素的OR 95 CI 及相應(yīng)的p值 第3步 logistic回歸分析 5 第3步 logistic回歸分析 6 第3步 logistic回歸分析 7 結(jié)果解讀 給出入選各因素的OR 95 CI 及相應(yīng)的p值 例3 為了探討冠心病發(fā)生的有關(guān)危險因素 對26例冠心病病人和28例對照者進(jìn)行病例 對照研究 各因素的說明及資料如下 試用logistic回歸分析方法篩選危險因素 SPSS軟件操作 第1步 定義變量 第2步 輸入原始數(shù)據(jù) 第3步 logistic回歸分析 1 選擇分析 回歸 二元logistic 第3步 logistic回歸分析 2 將x1 8和y分別移入?yún)f(xié)變量和因變量 第3步 logistic回歸分析 3 設(shè)置選項勾上exp B 的95CI 第3步 logistic回歸分析 4 結(jié)果解讀 給出入選各因素的OR 95 CI 及相應(yīng)的p值 多分類資料的logistic回歸 應(yīng)變量為有序多分類資料的logistic回歸應(yīng)變量的水平數(shù)大于2 且水平之間存在等級遞增或遞減關(guān)系的資料為有序多分類資料 SPSS中通過有序logistic過程實現(xiàn) 例4 研究性別和兩種治療方法對某病療效的影響 療效的評價分為三個有序等級 數(shù)據(jù)如下 試做logistic回歸分析 SPSS軟件操作 第1步 定義變量 第2步 輸入原始數(shù)據(jù) 第3步 加權(quán)設(shè)置 選擇數(shù)據(jù) 加權(quán)個案 W 將f移入頻率變量 第4步 logistic回歸分析 1 選擇分析 回歸 有序 第4步 logistic回歸分析 2 將A和B移入?yún)f(xié)變量 C移入因變量 第4步 logistic回歸分析 3 設(shè)置輸出勾上平行線檢驗 第4步 logistic回歸分析 4 結(jié)果解讀 性別 A 和療法 B 的回歸系數(shù)大于0 具有統(tǒng)計學(xué)意義 OR分別為e1 319 3 740 e1 797 6 302 第4步 logistic回歸分析 5 結(jié)果解讀 平行線檢驗p 0 480 說明應(yīng)變量各水平與自變量間的回歸方程平行 應(yīng)變量為無序多分類資料的logistic回歸應(yīng)變量的水平數(shù)大于2 且水平之間不存在等級遞增或遞減關(guān)系的資料為無序多分類資料 SPSS中通過多項logistic過程實現(xiàn) 例5 為了研究胃癌及胃癌前病變核仁組織變化情況 分析核仁組成區(qū)嗜銀蛋白顆粒數(shù)量及大小在胃炎 胃組織不典型增生和胃癌三種胃疾病中的變化規(guī)律以及臨床的診斷意義 共檢測129名患者 結(jié)果如下 試做logistic回歸分析 SPSS軟件操作 第1步 定義變量 第2步 輸入原始數(shù)據(jù) 第3步 加權(quán)設(shè)置 選擇數(shù)據(jù) 加權(quán)個案 W 將f移入頻率變量 第4步 logistic回歸分析 1 選擇分析 回歸 多項logistic 第4步 logistic回歸分析 2 將a b移入?yún)f(xié)變量 Y移入因變量 第4步 logistic回歸分析 3 設(shè)置選項勾上exp B 的95CI 第4步 logistic回歸分析 4 結(jié)果解讀 相對于胃炎的OR值以及OR的95 CI 數(shù)據(jù)挖掘分析 第二部分 數(shù)據(jù)挖掘研究設(shè)計基本概念基本步驟Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決策樹聚類分析 研究時有無設(shè)計干預(yù)因素 實驗性研究 觀察性研究 是否隨機 有無對照組 分析性研究 描述性研究 時間方向 隊列研究 非隨機對照試驗 隨機對照試驗 病例對照研究 橫斷面研究 有 無 有 無 否 是 暴露 結(jié)局 結(jié)局 暴露 觀察性研究 由于醫(yī)學(xué)研究對象的特殊性 在很多科研中 研究者不能主動地控制研究因素 這種在自然狀態(tài)下 觀察疾病發(fā)生 發(fā)展 診治過程中表現(xiàn)出來的特點和規(guī)律 以闡述疾病的分布特征 認(rèn)識病因和影響因素 分析防治過程中相關(guān)規(guī)律和特征的研究方法 稱為觀察性研究 數(shù)據(jù)挖掘研究 基于數(shù)據(jù)分析方法角度的分類本質(zhì)上屬于觀察性研究研究資料來源日常診療工作資料應(yīng)用的技術(shù)較傳統(tǒng)研究更先進(jìn)分析工具 理論模型與傳統(tǒng)研究區(qū)別較大 數(shù)據(jù)挖掘 從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù) 是統(tǒng)計學(xué) 數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合 數(shù)據(jù)挖掘 從數(shù)據(jù)中自動地抽取模式 關(guān)聯(lián) 變化 異常和有意義的結(jié)構(gòu) 數(shù)據(jù)挖掘 利用已有的數(shù)據(jù) 數(shù)據(jù)收集過程不經(jīng)過特意的科研設(shè)計 目的是發(fā)現(xiàn)規(guī)律 而不是驗證假設(shè) 數(shù)據(jù)挖掘研究設(shè)計基本概念基本步驟Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決策樹聚類分析 第一步驟選擇 第三步驟挖掘 第二步驟處理 第四步驟分析 2020 1 15 數(shù)據(jù)挖掘步驟 目標(biāo)數(shù)據(jù) 預(yù)處理及變換 變換后的數(shù)據(jù) 數(shù)據(jù)挖掘算法 解釋 評估 清理篩選 知識 數(shù)據(jù)挖掘研究的基本步驟 第一步 選擇數(shù)據(jù) 收集獲取原始數(shù)據(jù)就是根據(jù)研究目的 進(jìn)行需要被挖掘分析的原始數(shù)據(jù)采集 評估數(shù)據(jù)的可獲得性 可以采用較小規(guī)模的數(shù)據(jù)對問題的可行性進(jìn)行初步研究 原始數(shù)據(jù)可能會分布于不同的信息系統(tǒng)中 需要對信息系統(tǒng)充分理解 并有相應(yīng)的技術(shù)實現(xiàn)數(shù)據(jù)的導(dǎo)出 原始數(shù)據(jù)的采集非常費時費力 通常在研究工作中占相當(dāng)大的比重 76 病人基本信息 HIS病人檢驗信息 LIS病人檢查信息 PACS等醫(yī)技系統(tǒng)病人診療過程信息 電子病歷病人收費信息 HIS 海量數(shù)據(jù) 大量的業(yè)務(wù)數(shù)據(jù) 問題也很多 標(biāo)準(zhǔn)不統(tǒng)一 很難分析 與臨床相關(guān)的電子病歷系統(tǒng)結(jié)構(gòu)化與臨床工作量之間的矛盾 中醫(yī)系統(tǒng) 醫(yī)療科研信息一體化系統(tǒng)軍隊系統(tǒng) 中國重大疾病臨床診療數(shù)據(jù)庫 第二步 處理數(shù)據(jù) 數(shù)據(jù)預(yù)處理部分 把數(shù)據(jù)轉(zhuǎn)換成比較容易被數(shù)據(jù)挖掘的格式及內(nèi)容 內(nèi)容處理 年齡六十歲 60有個還分組 老年 青年 等格式處理 年齡出生日期1950年轉(zhuǎn)成63 為什么需要預(yù)處理 數(shù)據(jù)不完整含觀測噪聲不一致包含其它不希望的成分?jǐn)?shù)據(jù)清理通過填寫空缺值 平滑噪聲數(shù)據(jù) 識別刪除孤立點 并解決不一致來清理數(shù)據(jù) 污染數(shù)據(jù)的普遍存在 使得在大型數(shù)據(jù)庫中維護(hù)數(shù)據(jù)的正確性和一致性成為一個及其困難的任務(wù) 垃圾進(jìn) 垃圾出 污染數(shù)據(jù)形成的原因 濫用縮寫詞數(shù)據(jù)輸入錯誤數(shù)據(jù)中的內(nèi)嵌控制信息不同的慣用語重復(fù)記錄丟失值拼寫變化不同的計量單位過時的編碼 例 中藥 證型 癥狀的預(yù)處理 預(yù)處理是最為關(guān)鍵的一步正異名的處理 白頭翁 白術(shù) 白頭公錯別字 青篙 青蒿省略字 龍牡 龍骨 牡蠣炮制預(yù)處理 建立一個中藥規(guī)范表 建立證型規(guī)范表 建立癥狀規(guī)范表 第三步 挖掘分析 運用工具和算法 進(jìn)行數(shù)據(jù)挖掘分析 完成分類 關(guān)聯(lián) 聚類 估計 預(yù)測等功能 發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律 數(shù)據(jù)挖掘主要方法 神經(jīng)網(wǎng)絡(luò)NeuralNetworks 聚類分析Clustering OpenAccn t AddNewProduct DecreaseUsage Time 序列分析SequenceAnalysis 決策樹DecisionTrees 傾向性分析 關(guān)聯(lián)分析Association 數(shù)據(jù)挖掘軟件應(yīng)用 SPSSClementine WEKA 第四步 結(jié)果解釋 結(jié)合專業(yè)知識 進(jìn)行數(shù)據(jù)挖掘分析結(jié)果的解釋 闡明規(guī)律 以及規(guī)律的臨床價值 結(jié)果解釋是數(shù)據(jù)挖掘研究的關(guān)鍵 從發(fā)現(xiàn)的規(guī)律進(jìn)一步延伸出其實際意義 是整個研究工作的成果所在 91 數(shù)據(jù)挖掘研究設(shè)計基本概念基本步驟Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決策樹聚類分析 Clementine軟件應(yīng)用 Clementine12 0安裝方法 1 下載 存放到D盤 重新命名為 ClementineV12 2 打開ClementineV12 點擊運行setup exe 按提示完成安裝到默認(rèn)目錄 C ProgramFiles SPSSInc Clementine12 03 D CLE12 0 Clementine12 Crack 破解復(fù)制該文件下 lservrc PlatformSPSSLic7 dll 兩個文件 粘貼到C ProgramFiles SPSSInc Clementine12 0 bin文件夾下 覆蓋原來的同名字文件 數(shù)據(jù)挖掘研究設(shè)計基本概念基本步驟Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決策樹聚類分析 97 Clementine用戶界面 操作區(qū) 節(jié)點 一個圖標(biāo)代表在Clementine中進(jìn)行的一個操作 工作流 一系列連接在一起的節(jié)點 可視化編程 選項板 源節(jié)點用來將數(shù)據(jù)讀入Clementine中記錄選項節(jié)點在記錄上進(jìn)行操作一條記錄是一種 情形 或一 行 數(shù)據(jù)字段選項節(jié)點在字段上進(jìn)行操作一個字段是一個變量圖形節(jié)點在建模之前和之后用來可視化數(shù)據(jù)建模節(jié)點代表有效建模算法注意 建模算法產(chǎn)生生成的模型 增加一個節(jié)點 在選項板上雙擊節(jié)點 自動放置節(jié)點到數(shù)據(jù)流區(qū)域 將節(jié)點從選項板拖放到數(shù)據(jù)流區(qū)域中在選項板上點擊一個節(jié)點 然后在數(shù)據(jù)流區(qū)域中點擊一下 編輯一個節(jié)點 在節(jié)點上右擊 展開一個節(jié)點點擊 編輯 在菜單上還可以選擇連接 斷開連接 重命名 注釋 復(fù)制 刪除 載入 保存等操作 連接節(jié)點 使用鼠標(biāo)中鍵來連接節(jié)點在數(shù)據(jù)流區(qū)域上 把一個節(jié)點連接到另一個上 可以通過鼠標(biāo)中間鍵點擊和拖放來完成 如果您的鼠標(biāo)沒有中間鍵 可以通過按住 Alt 鍵來模擬這個過程 通過雙擊來連接節(jié)點雙擊選項板上的節(jié)點 自動把新節(jié)點連接到數(shù)據(jù)流區(qū)域中的 中心 節(jié)點上 刪除節(jié)點之間的連接 在連接箭頭的頭部按住鼠標(biāo)右鍵選擇 刪除連接 Clementine中讀取數(shù)據(jù)格式 文本文件EXCELSPSS數(shù)據(jù)文件ODBC兼容的數(shù)據(jù)庫SAS數(shù)據(jù)文件用戶輸入文件 讀取原始文件 添加變量文件節(jié)點到數(shù)據(jù)流區(qū)域編輯節(jié)點指向文件通過編輯進(jìn)行原始數(shù)據(jù)設(shè)置 讀取文本文件 讀取EXCEL文件 讀取其他數(shù)據(jù)文件 原始數(shù)據(jù)是什么文件類型 則采用什么節(jié)點 定義字段類型 類型節(jié)點指定字段的一系列重要屬性 指定字段類型 方向和缺失值 Clementine可以自動設(shè)置變量類型 用戶也可以強制指定類型 為建立模型 指定字段的方向 指定缺失值以及如何處理缺失值 變量值檢查保證字段值滿足一定的設(shè)置 字段類型幫助您理解正在使用的數(shù)據(jù) 是一些數(shù)據(jù)準(zhǔn)備和所有建模程序所必需的 連續(xù)型 用于描述數(shù)值 如0 100或者0 75 1 25內(nèi)的連續(xù)值一個連續(xù)值可以是整數(shù) 實數(shù)或日期 時間離散型 用于當(dāng)一個具體值的精確數(shù)量未知時描述字符串 一旦數(shù)據(jù)被讀取 其類型就會是標(biāo)記 集合或者無類型集合型 用于描述帶有多個具體值的數(shù)據(jù) 黃 綠 藍(lán) 標(biāo)記型 用于只取兩個具體值的數(shù)據(jù) 真 假 無類型 用于不符合上述任一種類型的數(shù)據(jù)或者含有太多元素的集合類型數(shù)據(jù) 字段方向 輸入 輸入或者預(yù)測字段輸出 輸出或者被預(yù)測字段字段兩者 既是輸入又是輸出 只在關(guān)聯(lián)規(guī)則中用到無 建模過程中不使用該字段分區(qū) 將數(shù)據(jù)拆分為訓(xùn)練 測試 驗證 部分字段方向設(shè)置只有在建模時才起作用 字段實例化 在讀取值前數(shù)據(jù)稱為未實例化 通過讀取值后數(shù)據(jù)完全實例化 字段的取值和類型都是可知的 數(shù)據(jù)挖掘分析的一般步驟 1 數(shù)據(jù)整理2 數(shù)據(jù)格式轉(zhuǎn)化3 數(shù)據(jù)文件讀入4 數(shù)據(jù)類型設(shè)置5 模型選擇與參數(shù)設(shè)置6 結(jié)果輸出與解讀 1 數(shù)據(jù)整理 整理成可分析的數(shù)據(jù)一般為橫向數(shù)據(jù) 即一個病人一條記錄 2 數(shù)據(jù)格式轉(zhuǎn)換 轉(zhuǎn)化成軟件可以讀入的格式 常用TXT文件 3 數(shù)據(jù)文件讀入 查看讀入數(shù)據(jù)是否成功 4 數(shù)據(jù)類型設(shè)置 5 模型選擇與參數(shù)設(shè)置 關(guān)聯(lián)規(guī)則決策樹類神經(jīng)網(wǎng)絡(luò)聚類分析判別分析 6 結(jié)果輸出與解讀 執(zhí)行模型后 輸出結(jié)果 直接查看結(jié)果 也可以再次增加table節(jié)點 查看新寫入的數(shù)據(jù) 結(jié)合專業(yè)知識進(jìn)行解讀 數(shù)據(jù)挖掘研究設(shè)計基本概念基本步驟Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決策樹聚類分析 關(guān)聯(lián)規(guī)則基本概念 是分析兩個或多個變量的取值之間存在某種規(guī)律性的方法 包括簡單關(guān)聯(lián)規(guī)則和系列關(guān)聯(lián)規(guī)則 在Clementine中實現(xiàn)簡單關(guān)聯(lián)規(guī)則的算法有Apriori和GRI兩種 Apriori只能處理分類變量 GRI還可以處理前項是數(shù)值型變量的情況 簡單關(guān)聯(lián)規(guī)則有效性的主要測度指標(biāo)包括兩個 規(guī)則置信度和規(guī)則支持度 規(guī)則置信度是對簡單關(guān)聯(lián)規(guī)則準(zhǔn)確度的測量 描述了包含項目X的事務(wù)中同時也包含項目Y的概率 規(guī)則支持度是對簡單關(guān)聯(lián)規(guī)則普遍性的測量 表示項目X和項目Y同時出現(xiàn)的概率 一個理想的簡單關(guān)聯(lián)規(guī)則應(yīng)具有較高的置信度和較高的支持度 關(guān)聯(lián)規(guī)則應(yīng)用實例 例6 收集了某一時間范圍內(nèi)治療某一疾病的中藥方3122張 涉及藥物251種 要分析處方中常用的藥對情況 現(xiàn)進(jìn)行關(guān)聯(lián)規(guī)則分析 藥對的概念 置信度 支持度的概念 同時出現(xiàn)白芍 大黃的方劑數(shù)1 白芍 大黃 支持度 33 總方劑數(shù)3同時出現(xiàn)白芍 大黃的方劑數(shù)1 白芍 大黃 置信度 50 凡出現(xiàn)白芍的方劑數(shù)2同時出現(xiàn)白芍 大黃的方劑數(shù)1 大黃 白芍 置信度 100 凡出現(xiàn)大黃的方劑數(shù)1 設(shè)定最小支持度50 最小置信度50 1 數(shù)據(jù)整理 從醫(yī)院HIS系統(tǒng)中導(dǎo)出某一疾病在某一時間范圍內(nèi)的藥方信息 數(shù)據(jù)整理的目的是保證從日常運行數(shù)據(jù)中獲得的數(shù)據(jù)的標(biāo)準(zhǔn)是統(tǒng)一的 規(guī)則是一致的 同類信息的表達(dá)是無偏的 例如藥名信息有 白頭翁 白術(shù) 白頭公 則統(tǒng)一為 白術(shù) 2 數(shù)據(jù)格式轉(zhuǎn)化 橫縱向轉(zhuǎn)換 從業(yè)務(wù)數(shù)據(jù)庫獲得的原始數(shù)據(jù)表基本上都是縱向結(jié)構(gòu)的 為了便于數(shù)據(jù)挖掘分析 必須將其轉(zhuǎn)換成橫向數(shù)據(jù)結(jié)構(gòu) 即轉(zhuǎn)換成一個個案的信息由一條記錄全部展示 2 數(shù)據(jù)格式轉(zhuǎn)化 文件類型轉(zhuǎn)換 SPSSClementine能讀取的文件類型包括文本文件 EXCEL文件 SPSS數(shù)據(jù)文件 ODBC兼容的數(shù)據(jù)庫 SAS數(shù)據(jù)文件和用戶輸入文件 一般文本文件出現(xiàn)亂碼 錯位等錯誤的概率較小 占用資源也較少 可優(yōu)先轉(zhuǎn)換成TXT文件 3 數(shù)據(jù)文件讀入 數(shù)據(jù)文件讀入的第一步是構(gòu)建一個原始文件節(jié)點 通過編輯原始文件節(jié)點 選定文件路徑 讀取原始數(shù)據(jù)文件 點擊 確定 后 該數(shù)據(jù)節(jié)點就有了可分析的原始數(shù)據(jù) 為了查看原始數(shù)據(jù)是否正確讀入 可增加table節(jié)點 查看原始數(shù)據(jù)是否已經(jīng)被讀入 格式是否準(zhǔn)確 有無亂碼等情況 4 數(shù)據(jù)類型設(shè)置 兩分類變量 設(shè)置文件類型為flag 關(guān)聯(lián)分析方向設(shè)置為 both 全部設(shè)置完成后 讀取變量 字段實例化 5 模型選擇與參數(shù)設(shè)置 在讀取原始數(shù)據(jù)和數(shù)據(jù)格式定義好以后 就可以根據(jù)數(shù)據(jù)挖掘分析的需要選擇相應(yīng)的模型 在簡單關(guān)聯(lián)分析中可選擇Apriori或GRI兩種節(jié)點 以Apriori為例 節(jié)點的相關(guān)參數(shù)設(shè)置主要包括兩部分 設(shè)置進(jìn)行兩兩關(guān)聯(lián)分析的變量和最小置信度 最小支持度定義 一般中藥藥對研究中 可選最小置信度和最小支持度均為50 兩兩關(guān)聯(lián)分析的變量定義 最小置信度 最小支持度定義 6 結(jié)果輸出與解讀 輸出了最小支持度和置信度均在50 以上的藥對 中藥與中藥之間癥狀與癥狀之間證型與證型之間中藥與癥狀之間中藥與證型之間癥狀與證型之間 關(guān)系 中醫(yī)藥關(guān)聯(lián)規(guī)則分析的其他應(yīng)用 關(guān)聯(lián)分析完整數(shù)據(jù)流圖 數(shù)據(jù)挖掘研究設(shè)計基本概念基本步驟Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決策樹聚類分析 決策樹基本概念 在數(shù)據(jù)挖掘中 決策樹是分類預(yù)測的經(jīng)典算法 決策樹算法的目的是通過向數(shù)據(jù)學(xué)習(xí) 獲得輸入變量和輸出變量不同取值下的數(shù)據(jù)分類和預(yù)測規(guī)律 并用于對新數(shù)據(jù)對象的分類預(yù)測 SPSSClementine提供C5 0 CART CHAID QUEST在內(nèi)的決策樹經(jīng)典算法 決策樹應(yīng)用實例 例7 收集了某一時間范圍內(nèi)治療應(yīng)用作用效果類似的A B C X Y5種藥物治療病人200例 資料包括年齡 性別 膽固醇 血壓 血鉀 血鈉 使用藥物等7個變量 現(xiàn)進(jìn)行用藥決策規(guī)律的決策樹分析 1 數(shù)據(jù)整理 從醫(yī)院HIS LIS 電子病歷系統(tǒng)中導(dǎo)出某一疾病在某一時間范圍內(nèi)的相關(guān)信息 數(shù)據(jù)整理的目的是保證從日常運行數(shù)據(jù)中獲得的數(shù)據(jù)的標(biāo)準(zhǔn)是統(tǒng)一的 規(guī)則是一致的 同類信息的表達(dá)是無偏的 2 數(shù)據(jù)格式轉(zhuǎn)化 橫縱向轉(zhuǎn)換 從業(yè)務(wù)數(shù)據(jù)庫獲得的原始數(shù)據(jù)表基本上都是縱向結(jié)構(gòu)的 為了便于數(shù)據(jù)挖掘分析 必須將其轉(zhuǎn)換成橫向數(shù)據(jù)結(jié)構(gòu) 即轉(zhuǎn)換成一個個案的信息由一條記錄全部展示 2 數(shù)據(jù)格式轉(zhuǎn)化 文件類型轉(zhuǎn)換 SPSSClementine能讀取的文件類型包括文本文件 EXCEL文件 SPSS數(shù)據(jù)文件 ODBC兼容的數(shù)據(jù)庫 SAS數(shù)據(jù)文件和用戶輸入文件 一般文本文件出現(xiàn)亂碼 錯位等錯誤的概率較小 占用資源也較少 可優(yōu)先轉(zhuǎn)換成TXT文件 3 數(shù)據(jù)文件讀入 數(shù)據(jù)文件讀入的第一步是構(gòu)建一個原始文件節(jié)點 通過編輯原始文件節(jié)點 選定文件路徑 讀取原始數(shù)據(jù)文件 點擊 確定 后 該數(shù)據(jù)節(jié)點就有了可分析的原始數(shù)據(jù) 為了查看原始數(shù)據(jù)是否正確讀入 可增加table節(jié)點 查看原始數(shù)據(jù)是否已經(jīng)被讀入 格式是否準(zhǔn)確 有無亂碼等情況 4 數(shù)據(jù)類型設(shè)置 設(shè)置文件類型兩分類變量為flag 多分類為set 連續(xù)資料為rang 決策樹中 決策目標(biāo)設(shè)置方向為out 其他作為決策依據(jù)的變量設(shè)置為in 5 模型選擇與參數(shù)設(shè)置 在讀取原始數(shù)據(jù)和數(shù)據(jù)格式定義好以后 就可以根據(jù)數(shù)據(jù)挖掘分析的需要選擇相應(yīng)的模型 在決策樹中可選擇供C5 0 C RTree CHAID QUEST等4種節(jié)點 以C5 0為例 節(jié)點的相關(guān)參數(shù)設(shè)置主要是設(shè)置決策目標(biāo)和輸入變量 決策目標(biāo)和輸入變量設(shè)置 6 結(jié)果輸出與解讀 決策樹分析完整數(shù)據(jù)流圖 數(shù)據(jù)挖掘研究設(shè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論