




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 基于 SAM 法和 BP 神經(jīng)網(wǎng)絡(luò)的代謝綜合長征風險、趨勢預測和干預模型的構(gòu)建摘要本文基于人體生物學數(shù)據(jù),運用 SAM 算法、permutation 算法、BP 神經(jīng)網(wǎng)絡(luò)算ogistic 回歸分析、結(jié)合 MATLAB、SPSS 軟件構(gòu)建了樣本相關(guān)基因挖掘模 型、基于相互作用網(wǎng)絡(luò)變化程度的動態(tài)模型、關(guān)鍵通路挖掘模型、代謝綜合征風 險預測模型,在基因表達量和關(guān)鍵通路方面分別對代謝綜合征進行現(xiàn)態(tài)的患病等 級預測和未來的患病風險預測,并根據(jù)預測情況給出具有針對性的干預措施。針對問題一,本文采用 SAM 算法得到每個基因在相鄰患病嚴重程度等級之間的差異值,同時結(jié)合假陽性檢驗選定閾值,篩選出大于閾值的基
2、因為相關(guān)基因(如表 4 所示),將其錄入到 KEGG 數(shù)據(jù)庫中檢索,得到包含相關(guān)基因的信號通路圖,從信號圖中挖掘出 66 條包含特征基因的相互作用網(wǎng)絡(luò),并利用模糊評價計算相互作用網(wǎng)絡(luò)中每個基因的權(quán)值,進一步計算每條網(wǎng)絡(luò)平均變化程度,用其作為 每個階段的度量,構(gòu)建人體生命量化的動態(tài)模型。針對問題二,利用 SPSS 軟件通過 66 條相互作用網(wǎng)絡(luò)對樣本的患病等級進行多元 Logistic 回歸分析,確定由問題一得到的 66 條相互作用網(wǎng)絡(luò)對患病等級的影響程度,由總體的擬合效果以及似然比檢驗的顯著性水平判斷每條網(wǎng)絡(luò)的影響程 度,篩選出顯著性小于 0.05 的作為關(guān)鍵通路,最終得到 30 條關(guān)鍵通路,
3、更進一步的對剔除的網(wǎng)絡(luò)再次進行多元 Logistic 回歸分析以檢驗選取的合理性。 針對問題三,基于第一問所得的相關(guān)基因用 SAM 法最后篩選出兩組特征基因、第二問所得的關(guān)鍵通路變化情況分別作為 3 個 BP 神經(jīng)網(wǎng)絡(luò)輸入因子,選取部分數(shù)據(jù)進行訓練,取剩余部分對訓練好的 BP 神經(jīng)網(wǎng)絡(luò)進行測試,將未知患病嚴重程度的樣本相關(guān)數(shù)據(jù)代入訓練好的 3 個 BP 神經(jīng)網(wǎng)絡(luò)識別樣本現(xiàn)狀與未來患 病風險,預測患病嚴重程度的變化趨勢,給出如表 17 所示的個性化預防方案。 關(guān)鍵字SAM 算法Permutation 算法BP 神經(jīng)網(wǎng)絡(luò)logistic 回歸分析MATLABSPSS1 一、問題重述人體作為一個復雜
4、的非線性系統(tǒng),其患代謝綜合征的成因不僅與外部自然社 會環(huán)境等相關(guān),還與基因序列密不可分。每個人患代謝綜合征的風險高低與人與 人之間基因序列的差異有直接的關(guān)系,通過測量分析人體各類從內(nèi)部到外部的因 素明晰人體復雜系統(tǒng)的具體問題所在,構(gòu)建早期趨勢預測模型,從而完成個性化 預防干預。試就一個具有較完整生物醫(yī)學數(shù)據(jù)的人類群體建立數(shù)學模型,分析研 究以下問題:(1)分析 NCBI,EBI,DDBJ 等公開數(shù)據(jù)庫中生物分子的相互作用和基因通路信息,構(gòu)建人體生命量化模型; (2)根據(jù)臨床檢測數(shù)據(jù),找出代謝綜合征關(guān)鍵通路的數(shù)據(jù)特征或相互作用網(wǎng)絡(luò); 判斷一個包含基因組、表觀基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組的人類
5、群 (3)體數(shù)據(jù)集患代謝綜合征的風險,并對應找出造成他們代謝綜合征風險的主要因素。 二、問題分析2.1 背景分析代謝綜合征是一種能增加糖尿病、心腦血管疾病的患病率及其死亡風險的慢 性疾病,雖然目前代謝綜合征及其后續(xù)關(guān)聯(lián)疾病的發(fā)病機制尚未明確,但相關(guān)研 究已經(jīng)表明它與遺傳、環(huán)境、心理、生活方式、及年齡均有密不可分的關(guān)系,且 是一個長期慢性發(fā)展的結(jié)果。根據(jù)美國新聞相關(guān)報導,目前全球已有四分之一的 成年人患有代謝綜合征,而患有代謝綜合征的人患心臟病或中風的概率是正常人 的 2-3 倍,因此對代謝綜合征的預防和干預已經(jīng)迫在眉睫。 本題是一個數(shù)據(jù)建模問題,主要是對生物體某個具體信息層次(如 DNA 序列
6、,DNA 表達,基因相互作用等)之間的相互作用關(guān)系對患代謝綜合征風險的研究。 2.2 問題一分析在沒有外在措施干預情況下,人體患代謝綜合征的嚴重程度會隨時間增加而 遞增,患者患病程度向下一程度等級變化時,其基因表達差異會相應變化。因此 2 先以批次一中 20073 個基因為樣本,選擇使用 SAM 法計算每一個基因在患病程度等級與等級之間的差異值,由于閾值選取不同,相關(guān)基因的篩選數(shù)目與假 發(fā)現(xiàn)率也不同,通過假陽性檢驗選取合適的閾值來篩選相關(guān)基因,在查閱相關(guān)文 獻2的基礎(chǔ)上我們假定患病程度共有四個等級(參考下文假設(shè))。類似地我們再 次使用同樣的方法篩選出等級和等級之間、等級和等級之間的相關(guān)基因,
7、得到三組相關(guān)基因,同理,對批次二做同樣的處理,兩個批次將得到六組相關(guān)基 因,為了能夠包含每個組別的相關(guān)基因,對六組相關(guān)基因取并集,得到兩個批次 總的相關(guān)基因。在參考 NCBI 和查閱了大量文獻基礎(chǔ)上,并對問題深入分析之后,考慮到了使用相互作用網(wǎng)絡(luò)去構(gòu)建人體生命量化的動態(tài)模型,即通過相互作用網(wǎng)絡(luò)變化程度來衡量生命的每一階段。為了挖掘相互作用網(wǎng)絡(luò),將得到的相關(guān)基因錄入到 KEGG 中,進一步從 KEGG 中挖掘出相互作用網(wǎng)絡(luò)。考慮到網(wǎng)絡(luò)中基因與基因之間的復雜關(guān)系以及每個基因所起的作用不同,于是本文采用了模糊評價的方法衡 量每個基因在相互作用網(wǎng)絡(luò)的作用程度。通過變異基因的作用程度與網(wǎng)絡(luò)中總基 因的作
8、用程度的比值衡量相互作用網(wǎng)絡(luò)變化程度。最終我們構(gòu)建了生命量化的動 態(tài)模型。2.3 問題二分析 關(guān)鍵通路旨在尋找問題一得到的相互作用網(wǎng)絡(luò)中哪個網(wǎng)絡(luò)跟代謝綜合征患 病程度的關(guān)系更為密切,故本文采用了 logistic 回歸分析的方法尋找關(guān)鍵通路。將相互作用網(wǎng)絡(luò)和患病等級錄入到 spss 中進行回歸分析,在模型擬合程度較好的基礎(chǔ)上分析每一條網(wǎng)絡(luò)對患病程度的影響是否顯著,從而剔除影響不顯著的相 互作用網(wǎng)絡(luò)。為了驗證我們剔除網(wǎng)絡(luò)的合理性,我們對剔除掉的相互作用網(wǎng)絡(luò)再次進行 logistic 回歸分析。通過模型擬合程度以及似然比檢驗的顯著性以證實我們所選取 的關(guān)鍵通路是合理的。 2.4問題三分析代謝綜合征
9、的發(fā)展是一個長期的過程,最終診斷為代謝綜合癥已經(jīng)是該長期 過程的結(jié)果。我們認為通路的變化程度為人體最根本的內(nèi)部因素,影響著每個人 3 罹患代謝綜合疾病的風險高低,相關(guān)基因表達量則體現(xiàn)樣本現(xiàn)階段的患病嚴重程 度。在前兩問的基礎(chǔ)上,可得與代謝綜合癥有關(guān)的相關(guān)基因與關(guān)鍵通路,然而代 謝綜合征的具體分類標準還不明確,現(xiàn)有數(shù)據(jù)變量較多。BP 神經(jīng)網(wǎng)絡(luò)有較強的處理不嚴密知識和定性特征變故的能力1,故在預測方面我們采用這種人工智能技術(shù)。針對變量較多的問題,對每批次的三個相關(guān)基因集合(批次一 UA、UB、UC 和批次二 UD、UE、UF)再進行 SAM 法篩選,分批次的得到隨患病等級變化差異較大的特征基因。
10、綜合由特征基因表達量預測的患病嚴重程度與關(guān)鍵通路變化程度預測的患 病嚴重程度分析樣本代謝綜合征得發(fā)展趨勢,并給出相關(guān)建議。三、模型假設(shè)(1) 假設(shè)基因表達量是長期作用結(jié)果,不考慮近期變異。 (2) 假設(shè)樣本變異情況只考慮編碼氨基酸的影響。 (3) 變異除 silent 變異類型以外,其他變異均對相關(guān)基因作用網(wǎng)絡(luò)產(chǎn)生影響。 (4) 假設(shè)A 和B 統(tǒng)稱為,A 和B 統(tǒng)稱為,A 和B 統(tǒng)稱為,A 和B 統(tǒng)稱為。2(5) 假設(shè)樣本只涉及代謝綜合征,不涉及其他疾病。 四、符號說明4X1(i)第 i 個基因在第一類樣本中的均值 X2(i)第 i 個基因在第二類樣本中的均值 n1第一類樣本容量 n2第二類樣
11、本容量 s(i)第 i 個基因的標準偏差 d(i)第 i 個基因的統(tǒng)計量值 dE(i)第 i 個基因的統(tǒng)計量值的均值 D基因差異值 五模型建立與求解5.1 問題一的模型建立與求解5.1.1 生命量化動態(tài)模型的建立本文的生命量化動態(tài)模型是基于相互作用網(wǎng)絡(luò)的變化程度構(gòu)建的,而構(gòu)建這個動態(tài)模型需要挖掘出相互作用網(wǎng)絡(luò)和計算網(wǎng)絡(luò)變化程度。挖掘相互作用網(wǎng)絡(luò)需 要從兩萬多個基因中找到和代謝綜合征相關(guān)的相關(guān)基因,本文采用 SAM 法3,4與 5UA第一批與表達差異性基因 UB第一批與表達差異性基因 UC第一批與表達差異性基因 UD第二批與表達差異性基因 UE第二批與表達差異性基因 UF第二批與表達差異性基因
12、fdr假陽性檢驗所得的假發(fā)現(xiàn)率 第 n 個樣本所包含變異基因的第 i 條相互作用網(wǎng)絡(luò)的權(quán)值 第 n 個樣本第 i 個相互作用網(wǎng)絡(luò)的變化程度 1Stage 階段總?cè)藬?shù) 2Stage 階段總?cè)藬?shù) 3Stage 階段總?cè)藬?shù) 4Stage 階段總?cè)藬?shù) 第階段相關(guān)作用網(wǎng)絡(luò)平均變化程度 第階段相關(guān)作用網(wǎng)絡(luò)平均變化程度 第階段相關(guān)作用網(wǎng)絡(luò)平均變化程度 第階段相關(guān)作用網(wǎng)絡(luò)平均變化程度 假陽性檢驗篩選相關(guān)基因并利用模糊評價的方法計算網(wǎng)絡(luò)變化程度,具體步驟如 下:第一步:SAM 法與假陽性檢驗篩選相關(guān)基因。分兩批次進行,對每批次兩個相鄰之間的等級使用一次 SAM 法與假陽性檢驗篩選出之一組的相關(guān)基因,最終求其并集
13、; 第二步:相互作用網(wǎng)絡(luò)的挖掘。參考 NCBI 和 KEGG 數(shù)據(jù)庫并結(jié)合相關(guān)基因找 到信號通路圖,從圖中挖掘相互作用網(wǎng)絡(luò); 第三步:模糊評價其變化程度。利用模糊評價的方式以經(jīng)過某一基因的作用 線作為衡量這一基因在此通路圖中的權(quán)值,結(jié)合樣本變異基因計算網(wǎng)絡(luò)變化程度; 第四步:建立動態(tài)模型。以患病等級為生命的每一個階段,以相互作用網(wǎng)絡(luò) 的平均變化程度作為每一階段的量度。圖 1 為其流程圖6 (1)SAM 法與假陽性檢驗篩選相關(guān)基因從第一批樣本表達文件中選出患病程度等級為和等級為的基因,分別 記為1和2,計算每個基因的標準偏差,記為():() = 1 () ()2 + 2() 12=1=1(1)其
14、中 1 + 1 = 1 2(2)1+22計算每個基因的統(tǒng)計量值,記為():()= 1()2()(3)()+00為變異系數(shù)最小時對應的(),通常為很小的正數(shù),()的變異系數(shù)為()的函數(shù) 采用permutation 算法對樣本進行全排列,再以前1個基因作為第一類樣本,后面2個基因作為第二類樣本,重復過程(1)計算新樣本中各個基因的統(tǒng)計量值 將過程進行n次計算,對第p 次permutation 算法第個基因的統(tǒng)計量值, 記為(); 求統(tǒng)計量值的均值,記為():()=1() =(4)計算基因差異值,記為 D:D(i) = |() ()|(5)將所得的d(i)d()進行假發(fā)現(xiàn)率檢驗: #()|()=1
15、=(6) #|()其中 t 為閾值,#表示對集合求元素個數(shù)7 根據(jù)假發(fā)現(xiàn)率隨閾值t 的變化情況,選取合適的閾值t 使fdr0.005,篩選出D大于閾值 t 的基因為差異表達基因 重復過程,篩選出第一批樣本表達文件中患病程度等級為和等級 為之間、等級為和等級為之間的差異表達基因,對所選出的差異表達基因取并集,得到相關(guān)基因 (2)模糊評價與相互作用網(wǎng)絡(luò)的挖掘 提取相關(guān)基因的 ID 號通過 KEGG 數(shù)據(jù)庫的信號通路圖尋找相關(guān)基因的相互作用網(wǎng)絡(luò)。根據(jù)所選取相關(guān)基因的表達量與患病程度等級之間的數(shù)字相關(guān)即相鄰患病等級之間相關(guān)基因的表達量有較大的差異值,提取的相互作用網(wǎng)絡(luò)中包括相關(guān)基因與每條相互作用線(經(jīng)
16、過相關(guān)基因)上緊鄰相關(guān)基因的兩個有關(guān)基因。在一個相互作用網(wǎng)絡(luò)中,由于每一個基因的作用程度不同,根據(jù)網(wǎng)絡(luò)中的基因所經(jīng)過的流程個數(shù),利用模糊評價的方法評判網(wǎng)絡(luò)中每個基因所起到的作用程度。 由上一步可以得到每一個樣本包含相關(guān)基因的相互作用網(wǎng)絡(luò),利用模糊評價得到相互作用網(wǎng)絡(luò)中每一個基因的影響程度為 ij(3)相互作用網(wǎng)絡(luò)的變化程度 樣本每條通路中的基因可能會發(fā)生變異,跟據(jù)模型假設(shè),剔除發(fā)生 silent變異類型的基因,提取剩余變異類型的基因,這些基因在相互作用網(wǎng)絡(luò)中的影響 程度為 ik(kyuzhi);d_p =d(find(tezhengyuzhi),:);zhongshu = size(d_t,1
17、);for i = 1:num3d_q= d_p(:,i);39 n = sum(abs(d_q)abs(d_t);c = c,n;endc = sum(c)/num3;FDR = c/zhongshu;rate = rate,FDR;endyuzhi = 0.1:0.1:2;plot(yuzhi,rate,*-);place = find(rate0.005);rate = yuzhi;rate;rate = rate;% place = place(1);title(與間假陽性檢驗);xlabel(閾值);ylabel(假發(fā)現(xiàn)率);text(yuzhi(place),rate(place)
18、,(,num2str(yuzhi(place),num2str(rate(place),),color,b);附錄三 計算各樣本相互作用網(wǎng)絡(luò)變化程度函數(shù)function data_output = pathpinjia(path,var_inf)% 目的:根據(jù)樣本變異信息,計算每個樣本的相互作用網(wǎng)絡(luò)的變化程度%輸入:path 相互作用網(wǎng)絡(luò)中每個基因及其對應的權(quán)值,var_inf 樣本變異信息 %輸出 data_output,N1 = size(path);%大小data_output = zeros(229,N1);%大小for i = 1:229data = ;place = find(var_inf.num=i);%第 num 個人40 str = var_inf.nam(place);%中間變量N2, =size(str);forj =1:N2str1= str(j);for k = 1:N1place1 = find(strcmp(path(k).nam,str1);%找位置if isempty(place1)%判空w(k)= sum(path(k).weight(place1);%賦值elsew(k)= 0;endzhong(k)= sum(path(k).weight);enddata = data;w;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 22454-2025企業(yè)建模與體系結(jié)構(gòu)企業(yè)建模構(gòu)件
- GB/T 45556-2025植物源產(chǎn)品中戊聚糖含量的測定氣質(zhì)聯(lián)用法
- 行政權(quán)的偏離與糾正機制試題及答案
- 高考語文內(nèi)容考察方式的多樣性試題及答案
- 高?;馂木仍畱鳖A案(3篇)
- 社區(qū)防火災工作應急預案(3篇)
- 行業(yè)標準化對市場競爭的影響試題及答案
- 電影院火災突發(fā)應急預案(3篇)
- 出租車行業(yè)火災應急預案(3篇)
- 泵站火災事故應急預案(3篇)
- 2025-2030年中國無縫鋼管行業(yè)市場深度調(diào)研及競爭格局與投資研究報告
- 山東省濟南市2025屆高三三?;瘜W試卷(含答案)
- 2022年新高考全國I卷數(shù)學真題
- 初三志愿填報家長會課件
- 2025年北京市租賃合同模板
- 糧食收購合同協(xié)議書范本
- 大學物理實驗安全注意事項題試題及答案
- 2024年甘肅省臨潭縣事業(yè)單位公開招聘醫(yī)療衛(wèi)生崗筆試題帶答案
- 《工作報告寫法》課件
- 【高三下】湖北省部分高中協(xié)作體2024-2025學年高三4月統(tǒng)考語文試題含答案
- 枯木砍伐施工方案
評論
0/150
提交評論