本科畢業(yè)答辯演講稿(使用遺傳算法從蛋白質(zhì)質(zhì)譜數(shù)據(jù)提取特征)_第1頁(yè)
本科畢業(yè)答辯演講稿(使用遺傳算法從蛋白質(zhì)質(zhì)譜數(shù)據(jù)提取特征)_第2頁(yè)
本科畢業(yè)答辯演講稿(使用遺傳算法從蛋白質(zhì)質(zhì)譜數(shù)據(jù)提取特征)_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、尊敬的各位老師: 大家上午好!我叫XX,本次論文指導(dǎo)老師是XX老師,我選的畢業(yè)論文題目是使用遺傳算法從蛋白質(zhì)質(zhì)譜數(shù)據(jù)提取特征,下面我先匯報(bào)一下自己選擇這篇論文的動(dòng)機(jī)以及基本寫作思路。重所周知,蛋白質(zhì)是遺傳物質(zhì)的直接反映者,通過(guò)對(duì)蛋白質(zhì)所反映出的特征進(jìn)行分析,能夠準(zhǔn)確地判斷出生物體的一些特征,如是否具有癌癥性狀。但是蛋白質(zhì)所反映出的信息成千上萬(wàn),在對(duì)數(shù)據(jù)進(jìn)行分析之前,必須先知道哪個(gè)才是對(duì)我們做出判斷有決定性作用的,哪個(gè)是與我們所研究的方面無(wú)關(guān)的,這就是論文中提到的特征提取。例如,這次論文中所選取的例子,是121卵巢癌癥患者和95例對(duì)照的樣本收集,針對(duì)每個(gè)樣本有15000個(gè)質(zhì)譜數(shù)據(jù),編寫程序的目的

2、,就是通過(guò)遺傳算法,決定出哪20個(gè)質(zhì)譜數(shù)據(jù)能夠?qū)ε袛嗍欠袷前┌Y患者起決定性作用?,F(xiàn)在,我來(lái)陳述本篇論文的結(jié)構(gòu),主要內(nèi)容分為三個(gè)部分:蛋白質(zhì)質(zhì)譜,遺傳算法,特征提取的程序?qū)崿F(xiàn)。蛋白質(zhì)質(zhì)譜是蛋白質(zhì)分子經(jīng)過(guò)質(zhì)譜儀分析而得的數(shù)據(jù)。首先,被分析樣品的氣態(tài)蛋白質(zhì)分子,在高真空中受到高速電子流或其它能量形式的作用,失去外層電子生成分子離子,或進(jìn)一步發(fā)生化學(xué)鍵的斷裂或重排,生成多種碎片離子。然后,將各種離子導(dǎo)入質(zhì)量分析器,利用離子在電場(chǎng)或磁場(chǎng)中的運(yùn)動(dòng)性質(zhì),使多種離子按不同質(zhì)荷比m/e的大小次序分開,并對(duì)多種的離子流進(jìn)行控制、記錄,得到質(zhì)譜圖。最后,得到譜圖中的各種離子及其強(qiáng)度實(shí)現(xiàn)對(duì)樣品成分及結(jié)構(gòu)的分析。質(zhì)譜分

3、析具有如下優(yōu)點(diǎn):很高的靈敏度,能為亞微克級(jí)試樣提供信息,能最有效地與色譜聯(lián)用,適用于復(fù)雜體系中痕量物質(zhì)的鑒定或結(jié)構(gòu)測(cè)定,同時(shí)具有準(zhǔn)確性易操作性快速性及很好的普適性。正因?yàn)橘|(zhì)譜法有這些優(yōu)點(diǎn),所以分子量測(cè)定、氨基酸鑒定、蛋白質(zhì)序列分析及立體化學(xué)分析等。現(xiàn)在來(lái)看第二部分,遺傳算法。遺傳算法以達(dá)爾文的進(jìn)化論和Mendel的遺傳理論為基礎(chǔ),將生物進(jìn)化過(guò)程中的適者生存法則和遺傳過(guò)程中的隨機(jī)配對(duì)交叉機(jī)制相結(jié)合,通過(guò)模擬生物進(jìn)化的過(guò)程和機(jī)制來(lái)搜索最優(yōu)解。從本質(zhì)上而言,遺傳算法是一種迭代算法,它通過(guò)逐次逼近來(lái)獲得問(wèn)題的近似最優(yōu)解。其主要特點(diǎn)是直接對(duì)結(jié)構(gòu)對(duì)象進(jìn)行操作,不存在求導(dǎo)和函數(shù)連續(xù)性的限定;具有內(nèi)在的隱并行

4、性和更好的全局尋優(yōu)能力;采用概率化的尋優(yōu)方法,能自動(dòng)獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向,不需要確定的規(guī)則。遺傳算法的這些性質(zhì),已被人們廣泛地應(yīng)用于組合優(yōu)化、信號(hào)處理、自適應(yīng)控制和人工智能計(jì)算中。在將數(shù)據(jù)載入算法之前,首先要對(duì)數(shù)據(jù)進(jìn)行編碼,成為可以被程序處理的數(shù)據(jù),也就是二進(jìn)制串。應(yīng)遵循的準(zhǔn)則首先是完備性,也就是問(wèn)題空間中的所有點(diǎn)(候選解)都能作為GA空間中的點(diǎn)(染色體)表現(xiàn)。第二是健全性,就是GA空間中的染色體能對(duì)應(yīng)所有問(wèn)題空間中的候選解。第三是非冗余性(nonredundancy),就是染色體和候選解一一對(duì)應(yīng)。在遺傳算法程序之中,會(huì)包含一個(gè)用于創(chuàng)建初始群體的函數(shù),這個(gè)函數(shù)會(huì)在編碼

5、而成得可行解中隨機(jī)選擇成為第一代父本,進(jìn)行迭代。把這些假設(shè)的可行解置于問(wèn)題的“環(huán)境”中,并按適者生存的原則,從中選擇出較適應(yīng)環(huán)境的“染色體”進(jìn)行復(fù)制,再通過(guò)交叉、變異過(guò)程產(chǎn)生更適應(yīng)環(huán)境的新一代“染色體”群,這個(gè)過(guò)程就稱為迭代。適應(yīng)度,是表示某一個(gè)體對(duì)環(huán)境的適應(yīng)能力,也表示該個(gè)體繁殖后代的能力。遺傳算法的適應(yīng)度函數(shù)也叫評(píng)價(jià)函數(shù),是用來(lái)判斷群體中的個(gè)體的優(yōu)劣程度的指標(biāo),它是根據(jù)所求問(wèn)題的目標(biāo)函數(shù)來(lái)進(jìn)行評(píng)估的。適應(yīng)度函數(shù)是遺傳算法的核心,它決定了遺傳算法的進(jìn)化方向,也就是我們最后所得到的數(shù)據(jù)的特點(diǎn),就是由適應(yīng)度函數(shù)來(lái)決定的。不同的程序是有不同的適應(yīng)度函數(shù)的。比如我的這次試驗(yàn)是要找出能夠?qū)ε袛嗍欠袷前?/p>

6、癥起決定作用的質(zhì)譜數(shù)據(jù),那我的適應(yīng)度函數(shù)用了一個(gè)分類函數(shù),按照質(zhì)譜數(shù)據(jù)對(duì)個(gè)體進(jìn)行分類,選出能夠使分類后兩組的真值分離最大化的作為特征質(zhì)譜。在程序中我用兩個(gè)語(yǔ)句把癌癥個(gè)體真值賦成,健康個(gè)體的真值為。迭代的核心在于三個(gè)關(guān)鍵詞復(fù)制、交叉、變異。遺傳算法的有效性主要來(lái)自復(fù)制和交叉操作,尤其是交叉在遺傳算法中起著核心的作用。復(fù)制操作有多種算法,最經(jīng)典的是輪盤賭算法,即將上一代種群中所有個(gè)體按適應(yīng)度值成比例的依次組成一個(gè)圓形的輪盤隨機(jī)轉(zhuǎn)動(dòng)輪盤,當(dāng)輪盤停下來(lái)時(shí),指針?biāo)赶虻膫€(gè)體就是被選中的個(gè)體,由于適應(yīng)度值較高的個(gè)體所占的區(qū)域較大,被選中的概率也較高,保證了適應(yīng)度值較高的個(gè)體能在新的種群中產(chǎn)生較多的后代。交

7、叉算子有很多種,包括單點(diǎn)交叉、多點(diǎn)交叉、洗牌交叉等等。交叉操作分兩步實(shí)現(xiàn)。第一步是在群體中隨機(jī)抽取兩個(gè)個(gè)體,作為交叉操作的父?jìng)€(gè)體。第二步是隨機(jī)地選擇交叉點(diǎn),對(duì)匹配的位串進(jìn)行交叉繁殖,產(chǎn)生一對(duì)新的位串。由于種群的個(gè)體有限,經(jīng)過(guò)若干代交叉操作,源于一個(gè)較好的祖先的個(gè)體會(huì)逐漸充斥整個(gè)種群,使問(wèn)題過(guò)早收斂而得不到最優(yōu)解。為避免這種情況出現(xiàn),就要效法自然界生物的變異,對(duì)個(gè)體進(jìn)行小概率的翻轉(zhuǎn)(替換)。變異是由變異算子完成的,反映到數(shù)據(jù)上就比如原來(lái)的數(shù)據(jù)是一串,那么我把它的某位變成,就完成了最簡(jiǎn)單的變異過(guò)程。決定迭代進(jìn)行到什么程度的就是收斂條件。有很多種收斂條件,如時(shí)間限制,就是我進(jìn)行多少代之后就停止迭代。

8、再比如精度限制,當(dāng)個(gè)體適應(yīng)度的方差或標(biāo)準(zhǔn)差低于一定的數(shù)值時(shí)停止迭代,或者適應(yīng)度限制,當(dāng)連續(xù)幾代最優(yōu)個(gè)體的適應(yīng)度沒(méi)有明顯變化時(shí)終止算法。在本次實(shí)驗(yàn)中采取的是時(shí)間限制。這是一張遺傳算法的圖解,它很直觀地表示出了遺傳算法的步驟。這里的初始條件就是收斂條件,我的論文里選的是時(shí)間收斂,設(shè)置迭代次數(shù)為50次,沒(méi)到次數(shù)就會(huì)一直迭代。然后是計(jì)算個(gè)體適應(yīng)值,這里用到適應(yīng)度函數(shù)。這是為下步的選擇做準(zhǔn)備的。然后用概率來(lái)選擇遺傳算子。比如變異的概率是百分之一,也就是500例個(gè)體中有5個(gè)變異的個(gè)體,則從適應(yīng)度高的個(gè)體中選出5個(gè),對(duì)它運(yùn)用變異算子。其他個(gè)體進(jìn)行交叉或者直接復(fù)制到下一代。然后再回到第二步進(jìn)行收斂檢驗(yàn)。最后一

9、部分主要內(nèi)容就是程序設(shè)計(jì)了。由于ppt篇幅的關(guān)系我沒(méi)有把所有程序都列舉出來(lái)。程序一共分為6個(gè)部分,數(shù)據(jù)加載到matlab,創(chuàng)建初始種群,創(chuàng)建適應(yīng)度函數(shù),創(chuàng)建選擇結(jié)構(gòu),調(diào)用遺傳算法,顯示被選擇特征。我選擇了數(shù)據(jù)加載和調(diào)用遺傳算法兩部分解釋一下。Load語(yǔ)句將數(shù)據(jù)加載至matlab,whos是顯示出數(shù)據(jù)名和類型。從輸出可以看出,一共有216組數(shù)據(jù),每組有15000個(gè)質(zhì)譜數(shù)據(jù)。下面看看主程序的調(diào)用。Rand是隨機(jī)產(chǎn)生均勻分布的隨機(jī)數(shù), randn是隨機(jī)產(chǎn)生正態(tài)分布的隨機(jī)數(shù),這兩個(gè)隨機(jī)數(shù)是在調(diào)用之前必須設(shè)置的。設(shè)置所需的特征數(shù)目。設(shè)置適應(yīng)度函數(shù)以便下步調(diào)用。而之前已經(jīng)編寫好了適應(yīng)度函數(shù)biografit。函數(shù)的參數(shù)有三個(gè),分別是適應(yīng)度、特征數(shù)目和選擇結(jié)構(gòu)。這個(gè)選擇結(jié)構(gòu)中包含了設(shè)置好的初始群體創(chuàng)建函數(shù),迭代次數(shù),每代得人口增加數(shù)等。的返回值是一個(gè)下標(biāo),然后把對(duì)應(yīng)的質(zhì)譜數(shù)據(jù)存入Significant_Masses。函數(shù)的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論