




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基因家族分析套路(一)近年來(lái),測(cè)序價(jià)格的下降,導(dǎo)致越來(lái)越多的基因組完成了測(cè)序,在數(shù)據(jù)庫(kù)中形成了大量的可用資源。如何利用這些資源呢?今日我?guī)闵枰幌虏粶y(cè)序也能發(fā)文章的思路-全基因組基因家族成員鑒定與分析(現(xiàn)在這一領(lǐng)域可是很熱奧);一、基本分析內(nèi)容n 數(shù)據(jù)庫(kù)檢索與成員鑒定n 進(jìn)化樹(shù)構(gòu)建n 保守domain和motif分析.n 基因結(jié)構(gòu)分析.n 轉(zhuǎn)錄組或熒光定量表達(dá)分析.二、數(shù)據(jù)庫(kù)檢索與成員鑒定1、數(shù)據(jù)庫(kù)檢索1)首先了解數(shù)據(jù)庫(kù)用法,學(xué)會(huì)下載你要分析物種的基因組相關(guān)數(shù)據(jù)。一般也就是下面這些數(shù)據(jù)庫(kù)了n Brachypodiumdb:/n TAIR:h
2、ttp://n Rice Genome Annotation Project :/.n Phytozome:n Ensemble:/genome_browser/index.html n NCBI基因組數(shù)據(jù)庫(kù):/assembly/?term=2)已鑒定的家族成員獵取。 如何獲得其他物種已發(fā)表某個(gè)基
3、因家族的全部成員呢,最簡(jiǎn)潔的就是下載該物種蛋白序列文件(可以從上述數(shù)據(jù)庫(kù)中下載),然后依據(jù)文章中的ID,找到對(duì)應(yīng)成員。對(duì)于沒(méi)有全基因組鑒定的,可以下列數(shù)據(jù)庫(kù)中找: a. NCBI: nucleotide and protein db. b. EBI: http:/www.ebi.ac.uk/. c. UniProtKB:/un
4、iprot/2、比對(duì)工具。一般使用blast和hmmer,具體使用命令如下:n Local BLASTformatdbi db.fasp F/T;blastallp blastp(orelse) i known.fasd db.fasm 8 b 2(or else) e 1e-5 o alignresult.txt.-b:output two different members in subjec
5、t sequences (db).n Hmmer (hidden Markov Model) search. Thesame as PSI-BLAST in function. It has a higher sensitivity, but the speed islower.Command:hmmbuild-informatafaknown.hmmalignknown.fa;
6、60;hmmsearchknown.hmmdb.fas>align.out.3、過(guò)濾。n Identity: 至少50%.n Cover region: 也要超過(guò)50%或者蛋白結(jié)構(gòu)域的長(zhǎng)度.n domain: 必需要有完整的該蛋白家族的。工具pfamdb (http:/pfam.sanger.ac.uk/) 和NCBI Batch CD- search. (/Structure/bwrpsb/bwrpsb.cgi).n EST
7、支持n Blast and Hmmer同時(shí)檢測(cè)到4、通過(guò)上述操作獲得某家族的全部成員基因家族分析套路(二)本次主要講解在基因家族分析類文章中,進(jìn)化部分分析的內(nèi)容。主要是進(jìn)化樹(shù)的構(gòu)建與分析。一、構(gòu)建進(jìn)化樹(shù)的基本步驟、多序列比對(duì). Muscle program.、Model 選擇. 分別針對(duì)蛋白序列和核酸序列的模型選擇程序。ProtTest program for protein and ModelTest or Jmodetlest for
8、60;DNA(、算法選擇。三種. NJ, ML and BI.、軟件選擇。 MEGA (bootstrap least 1000 replicates), phyML and Mrbayes (、進(jìn)化樹(shù)修飾. MEGA: view->options and subtree-> draw options. Also can be decorated
9、;in word (二、具體步驟 2.1 多序列比對(duì)。一般接受muscle。由于 MUSCLE is one of the best-performing multiple alignment programs according to published benchmark tests, with accuracy and speed that are
10、160;consistently better than CLUSTALW.2.2 模型選擇。對(duì)于用蛋白序列構(gòu)建進(jìn)化樹(shù)的可以接受下面命令: java -Xmx250m -classpath path/ProtTest.jar prottest.ProtTest -i alignmfile.phy.運(yùn)行結(jié)果如下圖 留意:1)“.Phy” format. Only a
11、llow ten charaters.留意名字不能重復(fù)相同。2)AIC: Akaike Information Criterion framework.3)Gamma distribution parameter (G): gamma shape.3)proportion of invariable sites: I. 2.3 構(gòu)建進(jìn)化樹(shù)2.3.1 意義:a聚類分析。如亞家族分類。像MAPKKK基因家族通過(guò)進(jìn)化樹(shù)可以清楚分為&
12、#160;MEKK, Raf and ZIK三個(gè)亞家族.b親緣關(guān)系鑒定。在進(jìn)化樹(shù)上位于同一支的往往示意這親緣關(guān)系很近c(diǎn) 基因家族復(fù)制分析。爭(zhēng)辯基因家族復(fù)制大事(duplication events),兩種復(fù)制大事類型常接受的標(biāo)準(zhǔn):Tandem duplication: Identity and cover region more than 70% and tightly linked (Holub, 2001).
13、160;Chromosomal segment duplication: Plant Genome Duplication Database (PGDD: /duplication/)2.3.2 進(jìn)化樹(shù)。一般ML樹(shù)比較精確,但應(yīng)結(jié)合方法,如NJ樹(shù),相互驗(yàn)證。2.3.3 進(jìn)化部分分析:KaKs計(jì)算 簡(jiǎn)潔的方法. 可以使用下面的網(wǎng)頁(yè)P(yáng)AL2NAL(http:/www.bork.embl.de/pal2nal/)2.
14、3.3.2 標(biāo)準(zhǔn)方法:.a. ParaAT: ParaAT.pl-h test.homologs -n test.cds -a test.pep -p proc f axt k -o outputb. KaKs_Calculator m NG(or else) -i test.axt -o test.axt.kaksc.分歧時(shí)間計(jì)算:Divergenttime(T)&
15、#160;calculation. T=Ks/2. : mean 5.1-7.1×10-9 .d. Ka/Ks意義: Ka/Ks=1.中性進(jìn)化。. Ka/Ks<> Ka/Ks>1.正選擇。Positively selected genes and produce fitness advantagemutations to evolve
16、new functions.基因家族分析套路(三)本節(jié)主要講基因結(jié)構(gòu)分析套路1、Motif分析 使用軟件MEME,命令如下: meme sample.fa -dna revcomp -nmotifs 10 -mod zoops -minw 6-maxw 50>meme_htmlFormat.html2、基因結(jié)構(gòu)分布圖可以使用在線網(wǎng)站GSDS2.0:website:用法如下:結(jié)果呈現(xiàn)3、基因結(jié)構(gòu)常見(jiàn)統(tǒng)計(jì)信息:自己excel或?qū)懗绦蚪y(tǒng)計(jì)
17、160; a. The number of intron andexon. b. The splicing intronpattern inculding 0,1,2 phase. c. The marked region. Forexample kinase domain. d. sequen
18、ce length. e. UTR.4、啟動(dòng)子分析。網(wǎng)站:主要做植物的:http:/bioinformatics.psb.ugent.be/webtools/plantcare/html/留意事項(xiàng):a. IE brower.b. Only one sequence for oncesearch and the length was limited in 1000 bp.c. DNA&
19、#160;sequence origin: 1000 or1500 bp upstream of ATG of one gene.分析結(jié)果:基因家族分析套路(四)一、轉(zhuǎn)錄組及芯片原始數(shù)據(jù)下載網(wǎng)站 1、 GEO datesets/profile(/gds ).。用法見(jiàn)下圖。GEO數(shù)據(jù)ID命名規(guī)章:GPL->GSE->GSM.GPL: platformGSE:
20、160;multiple series.GSM: multiple samples.GDS GSE. Thedifference concentrated on the data labeled GDS can be analyzed for one geneonline. It is simple and easily.The data in&
21、#160;the sameGPL can be used to compare inexperiment下面是在線分析轉(zhuǎn)錄組數(shù)據(jù)的用法:2、EBI ArrayExpress(http:/www.ebi.ac.uk/arrayexpress/) 該數(shù)據(jù)庫(kù)下載數(shù)據(jù)用法如下:3、PLEXdb(/).該數(shù)據(jù)庫(kù)下載數(shù)據(jù)用法如下,留意用戶名和密碼!4、SRA db(/sra/)5、DRA db(
22、http:/trace.ddbj.nig.ac.jp/DRASearch/)二、數(shù)據(jù)處理 拿到原始數(shù)據(jù),要進(jìn)行處理,才能進(jìn)行后續(xù)數(shù)據(jù)分析。1、芯片數(shù)據(jù)。原始數(shù)據(jù)格式“.cel”格式。以AffyMicroarray數(shù)據(jù)處理為例敘述主要的命令如下:> library(affy); >library(makecdfenv); >library> barleyGenome = make.cdf.env(“barleyGenome.cdf")>mydata <-
23、60;ReadAffy() #choose “.cel “ file analyzed.>eset <- rma(mydata);>write.exprs(eset,file="mydata.txt")>design <- model.matrix(-1+factor(c(1,1,2,2,3,3) # Createsappropriate design matrix. >colnames(design
24、) <-c("group1", "group2", "group3") # Assigns column names.>fit <- lmFit(eset, design) # Fits a linear model for each gene based onthe given series
25、0;of arrays.>contrast.matrix <- makeContrasts(group2-group1,group3-group2, group3-group1, levels=design) # Creates appropriate contrast matrix toperform all pairwise comparisons.>fit2 <- contrasts.fit(fit,
26、60;contrast.matrix)# Computes estimatedcoefficients and standard errors for a given set of contrasts.>fit2 <- eBayes(fit2) # Computes moderated t-statistics and log-oddsof differential expr
27、ession by empirical Bayes >topTable(fit2, coef=1,adjust="fdr", sort.by="B", number=10) # Generates list of top 10 ('number=10')differentially expressed genes sorted by B-valu
28、es ('sort.by=B') for firstcomparison group.>write.table(topTable(fit2, coef=1,adjust="fdr", sort.by="B", number=500),file="limma_complete.xls", s=F, sep="t") # Exports complete limma statistics table forfirst comparison group.>results <-&
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Macupatide-LY3532226-生命科學(xué)試劑-MCE
- KVA-D-88-生命科學(xué)試劑-MCE
- 隔代家庭教育現(xiàn)狀與優(yōu)化策略
- 護(hù)理原因分析及整改措施
- 高職教學(xué)設(shè)計(jì)
- 椎體內(nèi)生軟骨瘤影像診斷
- 塔吊與施工升降機(jī)安全培訓(xùn)
- 中國(guó)近代學(xué)前兒童美術(shù)教育
- 史志征集編纂辦公室2025年工作總結(jié)和2025年計(jì)劃
- 人員安全責(zé)任承諾書(shū)
- 最新《工會(huì)基礎(chǔ)知識(shí)》試題庫(kù)及答案1000題【完美打印版】
- 禮品禮金登記表
- 【新】2019-2020成都市石室中學(xué)北湖校區(qū)初升高自主招生數(shù)學(xué)【4套】模擬試卷【含解析】
- 《文明禮貌我最棒》班會(huì)課件
- 意外受傷賠償協(xié)議書(shū)的格式
- PE管閉水試驗(yàn)表
- 山東省教師職稱改革實(shí)施方案
- 《河南省企業(yè)安全風(fēng)險(xiǎn)辨識(shí)管控與隱患排查治理雙重預(yù)防體系建設(shè)導(dǎo)則(試用)》
- 生產(chǎn)過(guò)程檢驗(yàn)記錄表
- 規(guī)劃放線報(bào)告材料樣本
- 完整版佛教葬禮儀式
評(píng)論
0/150
提交評(píng)論