基因轉(zhuǎn)錄組的測定及分析_第1頁
基因轉(zhuǎn)錄組的測定及分析_第2頁
基因轉(zhuǎn)錄組的測定及分析_第3頁
基因轉(zhuǎn)錄組的測定及分析_第4頁
基因轉(zhuǎn)錄組的測定及分析_第5頁
已閱讀5頁,還剩181頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、胡松年中國科學(xué)院北京基因研究所什么是 ESTs ?ESTs(Expressed Sequence tags )是從已建好的cDNA庫中隨機(jī)取出一個(gè)克隆,從5末端或3末端對插入的cDNA片段進(jìn)行一輪單向自動(dòng)測序,所獲得的約60-500bp的一段cDNA序列。大規(guī)模EST序列測定的開始1983年:Costanzo等提出EST概念的雛形1991年:Adams測定了三種人腦組織共609條EST,宣布 了cDNA大規(guī)模測序的時(shí)代的開始代1991年:Okubo等提出大規(guī)模cDNA測序的研究戰(zhàn)略1993年:Venter等創(chuàng)立現(xiàn)在的EST技術(shù)1993年:Boguski & Schuler提出以EST為

2、界標(biāo)的人類 基因組轉(zhuǎn)錄圖譜計(jì)劃 93年前ESTs數(shù)據(jù)收錄于GenBank, EBI和DDBJ。 1993年NCBI(National Center of Biotechnology Information)建立了一個(gè)專門的EST數(shù)據(jù)庫dbEST來保存和收集所有的EST數(shù)據(jù)。 95年中期GenBank 中EST的數(shù)目超過了非EST的數(shù)目。 現(xiàn)在GenBank中EST的數(shù)目已經(jīng)超過了三千五百萬,約占GenBank中序列數(shù)的60%.EST數(shù)量排名前10的物種Organism ESTsHomo sapiens (human) 8,301,471Mus musculus + domesticus (mo

3、use) 4,852,146Zea mays (maize) 2,018,798Bos taurus (cattle) 1,620,962Arabidopsis thaliana (thale cress) 1,559,485Danio rerio (zebrafish) 1,527,299Glycine max (soybean) 1,481,930Xenopus tropicalis (western clawed frog) 1,422,983Oryza sativa (rice) 1,271,375Ciona intestinalis 1,249,110 截止到2010年3月19日 E

4、ST相關(guān)數(shù)據(jù)庫相關(guān)數(shù)據(jù)庫 儲存EST原始數(shù)據(jù)的一級數(shù)據(jù)庫 EMBL GenBank (dbEST) DDBJ UniGene (/UniGene) TIGR Gene Indices (/tdb/tgi/) STACK (http:/www.sanbi.ac.za/Dbases.html)對EST進(jìn)行聚類拼接的二級數(shù)據(jù)庫EST的應(yīng)用 1ESTs與基因識別 ESTs已經(jīng)被廣泛的應(yīng)用于基因識別,因?yàn)镋STs的數(shù)目比GenBank中其它的核苷酸序列多,研究人員更容易在EST庫中搜尋到新的基因(Boguski et

5、 al., 1994). 在同一物種中搜尋基因家族的新成員在同一物種中搜尋基因家族的新成員(paralogs)。 在不同物種間搜尋功能相同的基因在不同物種間搜尋功能相同的基因(orthologs)。 已知基因的不同剪切模式的搜尋。已知基因的不同剪切模式的搜尋?!咀ⅲ翰贿^很難確注:不過很難確定一個(gè)新的序列是由于交替剪切產(chǎn)生的或是由于定一個(gè)新的序列是由于交替剪切產(chǎn)生的或是由于cDNA文庫中污染了基因組文庫中污染了基因組DNA序列序列(Wolfsberg et al., 1997)】EST的應(yīng)用 2ESTs與基因圖譜的繪制 EST可以借助于序列標(biāo)簽位點(diǎn)(sequence-tagged sites)用

6、于基因圖譜的構(gòu)建. STS本身是從人類基因組中隨機(jī)選擇出來的長度在200-300bp左右的經(jīng)PCR檢測的基因組中唯一的一段序列。來自mRNA的3非翻譯區(qū)的ESTs更適合做為STSs,用于基因圖譜的繪制。其優(yōu)點(diǎn)主要包括: 由于沒有內(nèi)含子的存在,因此在cDNA及基因組模板中其PCR產(chǎn)物的大小相同; 與編碼區(qū)具有很強(qiáng)的保守性不同,3UTRs序列的保守性較差,因此很容易將單個(gè)基因與編碼序列關(guān)系非常緊密的相似基因家族成員分開。 (James Sikela等,1991年)EST的應(yīng)用 3ESTsESTs與基因預(yù)測與基因預(yù)測 由于EST來源于cDNA,因此每一條EST均代表了文庫建立時(shí)所采樣品特定發(fā)育時(shí)期和

7、生理狀態(tài)下的一個(gè)基因的部分序列。使用合適的比對參數(shù),大于90的已經(jīng)注釋的基因都能在EST庫中檢測到(Bailey et al., 1998)。ESTs可以做為其它基因預(yù)測算法的補(bǔ)充,因?yàn)樗鼈儗︻A(yù)測基因的交替剪切和3 非翻譯區(qū)很有效。 ESTsESTs與與SNPsSNPs 來自不同個(gè)體的冗余的ESTs可用于發(fā)現(xiàn)基因組中轉(zhuǎn)錄區(qū)域存在的SNPs。最近的許多研究都證明對ESTs數(shù)據(jù)的分析可以發(fā)現(xiàn)基因相關(guān)的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。 應(yīng)注意

8、注意區(qū)別真正的SNPs和由于測序錯(cuò)誤( ESTs為單向測序得來,錯(cuò)誤率可達(dá)2)而引起的本身不存在的SNPs。解決這一問題可以通過: 提高ESTs分析的準(zhǔn)確性。 對所發(fā)現(xiàn)的SNPs進(jìn)行實(shí)驗(yàn)驗(yàn)證進(jìn)行實(shí)驗(yàn)驗(yàn)證。EST的應(yīng)用 4EST的應(yīng)用 5利用利用ESTsESTs大規(guī)模分析基因表達(dá)水平大規(guī)模分析基因表達(dá)水平 因?yàn)镋ST序列是從某以特定的組織的cDNA文庫中隨機(jī)測序而得到,所以可以用利用未經(jīng)標(biāo)準(zhǔn)化和差減雜交的cDNA文庫EST分析特定組織的基因表達(dá)譜。標(biāo)準(zhǔn)化的cDNA文庫和經(jīng)過差減雜交的cDNA文庫則不能反應(yīng)基因表達(dá)的水平。 CGAP 為研究癌癥的分子機(jī)理,美國國家癌癥研究所NCI的癌癥基因組解析計(jì)

9、劃(Cancer Genome Anatomy Project , CGAP)構(gòu)建了很多正常的或是癌癥前期的和癌癥后期的組織的cDNA文庫,并進(jìn)行了大規(guī)模的EST測序,其中大部分的文庫未經(jīng)標(biāo)準(zhǔn)化或差減雜交處理。CGAP網(wǎng)站提供了多種工具用以分析不同文庫間基因表達(dá)的差異, 如: Digital Gene Expression Displayer (DGED) cDNA xProfiler 基因表達(dá)系列分析基因表達(dá)系列分析(Serial Analysis of Gene Expression, SAGE) 基因表達(dá)系列分析是一種用于定量,高通量基因表達(dá)分析的實(shí)驗(yàn)方法(Velculescu et a

10、l., 1995)。SAGE的原理就是分離每個(gè)轉(zhuǎn)錄本的特定位置的較短的單一的序列標(biāo)簽(約9-21個(gè)堿基對),這些短的序列被連接、克隆和測序,特定的序列標(biāo)簽的出現(xiàn)次數(shù)就反應(yīng)了對應(yīng)的基因的表達(dá)豐度。 DNA微陣列或基因芯片的研究微陣列或基因芯片的研究 高密度寡核苷酸cDNA 芯片或cDNA微陣列是一種新的大規(guī)模檢測基因表達(dá)的技術(shù),具有高通量分析的優(yōu)點(diǎn)。在許多情況下,cDNA芯片的探針來源于3EST (Duggan et al., 1999),所以EST序列的分析有助于芯片探針的設(shè)計(jì)。體內(nèi):翻譯體外研究:反轉(zhuǎn)錄連接,轉(zhuǎn)化Serial analysis of gene expression (SAGE

11、) 技術(shù)流程反轉(zhuǎn)錄反轉(zhuǎn)錄酶切酶切連接連接測序測序單條測序?qū)螚l測序?qū)?040條條EST測序測序分析分析低豐度表達(dá)基因、基因表達(dá)量分析、新基因、低豐度表達(dá)基因、基因表達(dá)量分析、新基因、上下調(diào)控基因鑒定、表達(dá)的復(fù)合效應(yīng)上下調(diào)控基因鑒定、表達(dá)的復(fù)合效應(yīng)Serial analysis of gene expression (SAGE) 技術(shù)流程l SAGE文庫的構(gòu)建: NlaIII(錨定酶)酶切,該酶能夠識別CATG位點(diǎn)并在其3端進(jìn)行酶切; 鏈霉素包被的磁珠進(jìn)行親和純化; 將cDNA分為A和B兩部分,分別連接接頭A或接頭B,每一種接頭都含有CATG四堿基突出端、限制性內(nèi)切酶BsmFI的識別序列和一個(gè)P

12、CR引物序列(引物A或B); 用標(biāo)簽酶BsmFI酶切,該酶在其識別位點(diǎn)3端下游的1417bp處進(jìn)行酶切,產(chǎn)生連有接頭的短cDNA片段; 混合并連接兩個(gè)短cDNA片段,構(gòu)成雙標(biāo)簽(ditag)后,用引物A和B進(jìn)行PCR擴(kuò)增; 錨定酶NlaIII切割擴(kuò)增產(chǎn)物,抽提SAGE雙標(biāo)簽片段;并用T4 DNA連接酶連接成多聚體(concaterner); 選擇合適的片斷長度,克隆進(jìn)載體;得到的克隆插入序列由一系列的2022bp長的SAGE雙標(biāo)簽組成,每兩個(gè)雙標(biāo)簽中間由4bp的NlaIII酶切位點(diǎn)分隔開。l SAGE文庫的測序: 單向測序。Serial analysis of gene expression

13、(SAGE) 分析流程l 在雙標(biāo)簽多聚體序列中定位NlaIII酶切位點(diǎn)(即CATG);l 提取CATG位點(diǎn)之間的2022bp長的雙標(biāo)簽序列;l 去除重復(fù)出現(xiàn)的雙標(biāo)簽序列,包括反向互補(bǔ)方向上重復(fù)的雙標(biāo)簽序列;l 截取每個(gè)雙標(biāo)簽序列最靠近兩頭末端的10個(gè)堿基,即為標(biāo)簽序列;l 去除與接頭序列相對應(yīng)的標(biāo)簽(即TCCCCGTACA和TCCCTATTAA),同時(shí)去除含有不確定堿基(即除A、C、T、G四種堿基以外的堿基)的標(biāo)簽;l 計(jì)算每個(gè)標(biāo)簽的出重復(fù)次數(shù),以列表的形式給出一個(gè)包含每個(gè)標(biāo)簽及其表達(dá)豐度的報(bào)告。 基因芯片或微陣列技術(shù)流程.Clone反轉(zhuǎn)錄(可選)反轉(zhuǎn)錄(可選)讀取光密度讀取光密度聚類分析(非

14、同源功能注釋)聚類分析(非同源功能注釋)標(biāo)記標(biāo)記雜交雜交反轉(zhuǎn)錄反轉(zhuǎn)錄EST分析分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表達(dá)量矩陣G1,G3,G5G2,G4G6,G9利用EST,SAGE分析結(jié)果制作芯片(研究已發(fā)現(xiàn)的研究已發(fā)現(xiàn)的基因基因)連接,連接,轉(zhuǎn)化轉(zhuǎn)化 Rice genome-wide DNA chip (60,000+預(yù)測基因) 果蠅基因芯片原位合成 幾種大規(guī)模分析基因表達(dá)水平的方法的比較幾種大規(guī)模分析基因表達(dá)水平的方法的比較lESTSAGEMicroarrayGeneChip發(fā)現(xiàn)新基因發(fā)現(xiàn)新基因是是否否有序列有序列是(可直接進(jìn)行可變剪切

15、的分析)否否否主要問題主要問題采樣量實(shí)驗(yàn)過程重復(fù)性成本高 ESTs很短,沒有給出完整的表達(dá)序列; 低豐度表達(dá)基因不易獲得。 由于只是一輪測序結(jié)果,出錯(cuò)率達(dá)2%-5%; 有時(shí)有載體序列和核外mRNA來源的cDNA污染或是基因組DNA的污染; 有時(shí)出現(xiàn)鑲嵌克??; 序列的冗余,導(dǎo)致所需要處理的數(shù)據(jù)量很大。ESTs數(shù)據(jù)的不足數(shù)據(jù)的不足 技術(shù)路線cDNA文庫構(gòu)建隨機(jī)測序得到EST序列讀取與處理序列拼接和注釋表達(dá)豐度和功能分析表達(dá)譜特征分析表達(dá)譜特征分析表達(dá)量在不同文庫中的分布表達(dá)譜的比較分析差異表達(dá)基因鑒定與分類功能分析作用機(jī)理分析作用機(jī)理分析Q-PCR驗(yàn)證驗(yàn)證 l EST軟件平臺EST序列庫/序列的質(zhì)

16、量檢查測序量監(jiān)控聚類和拼接檢查(借助于基因組信息)全長ORF尋找發(fā)現(xiàn)全長基因研究表達(dá)基因概況的主要實(shí)驗(yàn)手段(DNA chip、proteomics的先驅(qū))功能分類表達(dá)量分析SAGE的先驅(qū)交替剪接檢測EST特有信息cDNA文庫構(gòu)建 非標(biāo)準(zhǔn)化的非標(biāo)準(zhǔn)化的cDNA文庫的構(gòu)建。文庫的構(gòu)建。 經(jīng)標(biāo)準(zhǔn)化或扣除雜交處理的經(jīng)標(biāo)準(zhǔn)化或扣除雜交處理的cDNA文庫。文庫。 Oligo d(T) cDNA文庫。文庫。 隨機(jī)引物隨機(jī)引物cDNA文庫。文庫。cDNA文庫構(gòu)建常見問題文庫構(gòu)建常見問題lRNA得率低lmRNA分離效率低lcDNA產(chǎn)物少原因:多糖、多酚、內(nèi)源性核酸蛋白酶、 miRNA等原因l 多糖多糖-糖蛋白糖

17、蛋白(核酸蛋白酶,植物血凝素等核酸蛋白酶,植物血凝素等)、多酚、多酚類等次生代謝產(chǎn)物在RNA分離時(shí),經(jīng)常與RNA共沉降,導(dǎo)致RNA 丟失丟失。或?qū)е路蛛x后的RNA嚴(yán)重不純不純,影響mRNA分離的得率。l 內(nèi)源性核酸酶內(nèi)源性核酸酶存在較多的情況下,可降解雙鏈DNA、RNA或者DNA-RNA雜合體,致使RNA易降解降解,轉(zhuǎn)錄后的DNA接頭無法連接接頭無法連接,是cDNA得率低的原因之一原因之一。l miRNA的存在導(dǎo)致mRNA的降解的降解測序方向的選擇根據(jù)不同的實(shí)驗(yàn)?zāi)康倪x擇不同的測序方向: 5 5端端 5上游非翻譯區(qū)較短且含有較多的調(diào)控信息。一般在尋找新基因或研究基因差異表達(dá)時(shí)用5端EST較好,大

18、部分EST計(jì)劃都是選用5端進(jìn)行測序的,而且從5端測序有利于將EST拼接成較長的基因序列。 3 3端端 3端mRNA有一20200bp的plyA結(jié)構(gòu),同時(shí)靠近plyA又有特異性的非編碼區(qū),所以從3端測得EST含有編碼的信息較少但研究也表明,10的mRNA3端有重復(fù)序列,這可以作為SSR標(biāo)記;非編碼區(qū)有品種的特異性,可以作為STS標(biāo)記 兩端測序兩端測序 獲得更全面的信息。1. 去除低質(zhì)量的序列(Phred)2. 應(yīng)用BLAST、RepeatMasker或Crossmatch遮蔽數(shù)據(jù)組中不屬于表達(dá)的基因的贗象序列(artifactual sequences)。載體序列載體序列 重復(fù)序列重復(fù)序列 污染

19、序列污染序列 (如核糖體如核糖體RNA、細(xì)菌或其它物種的基因組、細(xì)菌或其它物種的基因組DNA等等)3. 去除其中的鑲嵌克隆。4. 最后去除長度小于100bp的序列。序列前處理序列前處理 (pre-processing)1:線粒體基因(8.76%)3:核糖體基因(0.14%)4:重復(fù)序列(0.10%)5:基因組DNA(1.95%)6:新基因或EST(27.07%)7:其他已知基因(61.75%)2:E.Coli污染基因(0.23%)家豬脂肪的EST數(shù)據(jù)分析結(jié)果文庫質(zhì)量檢驗(yàn): Contamination and house-keeping gene expression levell Librar

20、yrRNAMitochondriamRNAG3PDActinTubulinMADSLib 10.25%4.90%0.56%0.29%0.09%0.06%Lib 20.66%0.78%0.71%0.20%0.20%0.00%Lib 31.99%0.18%0.50%0.36%0.19%0.06%Lib 40.09%0.31%0.78%0.76%0.83%0.34%Lib 50.64%0.65%0.76%0.50%1.10%0.00%Lib 60.40%0.22%0.44%0.66%1.04%0.13%Lib 70.20%0.30%0.55%0.59%1.31%0.10%Lib 80.18%0.31

21、%0.92%0.62%2.25%0.40%Lib 90.35%0.31%0.78%0.17%0.20%0.10%Mean0.53%0.88%0.67%0.46%0.80%0.13%STDEV0.58%1.52%0.16%0.21%0.72%0.14%STDEV/Mean0.240.460.891.08文庫質(zhì)量檢驗(yàn): Clone duplication analysisl Controls are non-normalized human EST libraries constructed by different protocols: Krizman protocol 1 (Lib281) K

22、rizman protocol 2 (Lib675 and Lib774) LTI non-normalized (Lib6346) Soares non-normalized (Lib185)序列質(zhì)量檢驗(yàn): Length and quality distributionl Quality check process: Head and tail trim (Phred 0.05) Vector masking, repeat masking, contamination masking (CrossMatch) Dropped sequence short than 100 bps afte

23、r trim and maskingl 86,136 sequences passed our sequence quality check 41,076 ESTs have more than 80% overall identity to public rice sequences (BLASTN, E-value 1E-15), and thus about 45,000 ESTs may be considered novell Most sequences are of 600 bps and with quality score 40 (error rate 0.0001)中國科學(xué)

24、院The standard Sanger variant to assess reliability of a base call, otherwise known as Phred quality score The Solexa pipeline (i.e., the software delivered with the Illumina Genome Analyzer) earlier used a different mapping, encoding the odds ratio p/(1-p) instead of the probability p: ASCII charact

25、er: ceedeeeeefffcddddaYccYc33/64Quality Score Advantage: save space鑲嵌克隆的識別 Back-to-back poly(A)+ tails. Linker-to-linker in middle of the sequence. Blastn/Blastx search.Aligned the contig consensi to rice indica 9311 genome. A forced joint was made if two contigs have overlap region on the genome. (

26、validated by 1045 rice cDNAs)A total of 3,926 contigs were merged resulted in reduction of our contig numbers from 32,489 to 30,222拼接質(zhì)量檢驗(yàn): Mergence checkESTs的聚類和拼接的聚類和拼接 聚類的目的就是將來自同一個(gè)基因或同一個(gè)轉(zhuǎn)錄本的具有重疊部分(overlapping)的ESTs整合至單一的簇(cluster)中。聚類作用:聚類作用:v 產(chǎn)生較長的一致性序列(consensus sequence),用于注釋。v 降低數(shù)據(jù)的冗余,糾正錯(cuò)誤數(shù)據(jù)。

27、v 可以用于檢測選擇性剪切。v 基因表達(dá)譜分析ESTs聚類的數(shù)據(jù)庫主要有三個(gè):聚類的數(shù)據(jù)庫主要有三個(gè):v UniGene ()v TIGR Gene Indices ()v STACK 不嚴(yán)格不嚴(yán)格的和嚴(yán)格的聚類的和嚴(yán)格的聚類 (loose and stringent clustering) loose clustering 產(chǎn)生的一致性序列比較長產(chǎn)生的一致性序列比較長 表達(dá)基因表達(dá)基因ESTs數(shù)據(jù)的覆蓋率高數(shù)據(jù)的覆蓋率高 含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體 每一類中可能包含旁系同源基因每一類中可能包含旁系同源基因(paralogous

28、 expressed gene)的轉(zhuǎn)的轉(zhuǎn)錄本錄本 序列的保真度低序列的保真度低 stringent clustering 產(chǎn)生的一致性序列比較短產(chǎn)生的一致性序列比較短 表達(dá)基因表達(dá)基因ESTs數(shù)據(jù)的覆蓋率低數(shù)據(jù)的覆蓋率低 因此所含有的同一基因的不同轉(zhuǎn)錄形式少因此所含有的同一基因的不同轉(zhuǎn)錄形式少 序列保真度高序列保真度高有參照的和無參照的聚類有參照的和無參照的聚類 (Supervised and unsupervised clustering) Supervised clustering 根據(jù)已知的參考序列(如全長mRNA、已拼接好的一致性序列) 聚類。 Unsupervised cluster

29、ing 沒有根據(jù)參考序列進(jìn)行分類。常用的拼接軟件 Phrap (/UWGC/analysistools/Phrap.cfm) CAP3(Xiaoqiu Huang ,) TIGR_Assember (/software/assembler/)Cluster的連接利用cDNA克隆的信息和5,3端Reads的信息,不同的Cluster可以連接在一起。UniGene Unigene 結(jié)合有指導(dǎo)的和無指導(dǎo)的方法,而且在聚類過程中使用了不同水平的嚴(yán)格度,聚類的算法為megablast,數(shù)據(jù)庫不產(chǎn)生一致性序列

30、。 TIGR Gene Index用的是有嚴(yán)格的和有指導(dǎo)的聚類方法,聚類的算法為類似于BLAST和FASTA的FLAST, 該法得到的一致性序列較短,交替剪切得到的不同的基因?qū)儆诓煌乃饕?。STACK STACK 用不嚴(yán)格的和無指導(dǎo)的聚類方法,聚類的算法為d2_cluster,產(chǎn)生較長的一致性序列,同一索引中含有不同的剪切方法得到的基因。Clean Short and Tight TIGR-THCUniGeneSTACKLong and Loose 聚類問題l錯(cuò)拼 poly(A) , Linker-to-linker, Gene Families, repeatl漏拼 Low quality,

31、 Linker-to-linker, repeatl選擇性剪切 polyAlinker l 050010001500200025003000050010001500200025003000350040004500500055006000Number of clones sequencedNumber of nonredundant groups 測序飽和度的分析測序飽和度的分析基因在不同文庫中表達(dá)豐度的比較所有表達(dá)基因在不同文庫間的分布所有表達(dá)基因在不同文庫間的分布l6354713544201657(53%)2412(61%)1608(53%)93-11(3117)PA64s(3938)LYP

32、9(3017)基因注釋及功能分類注釋:注釋: 序列聯(lián)配 Blastn, Blastx 蛋白質(zhì)功能域搜索(二結(jié)構(gòu)比對) Pfam Interproscan 較好匹配InterproScanNt BlastnEST sequencesNr Blastx完成注釋無理想匹配較好匹配完成注釋無理想匹配較好匹配無理想匹配New sequences域的注釋后 續(xù) 分 析常用的基因注釋流程基因注釋基因注釋數(shù)據(jù)庫 注釋上的基因所占比例TIGR OGI(ver17)7126 94.3 TIGR PseudoMolecule(ver5)6151 81.4 NCBI UNIGENE(ver62)6714 88.8 N

33、CBI nr protein database5831 77.2 93-11 BGI_Scan5854 77.5 Uniprot protein database3628 48.0 TIGR to GO4565 60.4 KEGG Automatic Annotation Server945 12.5 一共有一共有7250 (95.9%) 的的unigenes被注釋。被注釋。 基因功能分類基因功能分類 手工分類手工分類 大部分以大部分以Adams 95Adams 95年的文章中的采用分類體系為標(biāo)準(zhǔn)。年的文章中的采用分類體系為標(biāo)準(zhǔn)。【Adams. MD, et al. Initial asses

34、sment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature. 1995 377(6547 Suppl):3-174 】 計(jì)算機(jī)批量處理計(jì)算機(jī)批量處理 利用標(biāo)準(zhǔn)基因詞匯體系Gene Ontology,進(jìn)行近似的分類(分子功能、生物學(xué)過程、分子組分)。 ( 基因產(chǎn)物直系同源簇的分析(基因產(chǎn)物直系同源簇的分析(COGCOG) ( () )GO的組織結(jié)構(gòu):定向無環(huán)圖的組織結(jié)構(gòu):定向無環(huán)圖( directed acyclic graphs

35、DAGs)各大數(shù)據(jù)庫中基因或基因產(chǎn)物與各大數(shù)據(jù)庫中基因或基因產(chǎn)物與GO術(shù)語的對照術(shù)語的對照 classification by molecular function012345log10 of ESTs numbertransporter activitytranslation regulator activitytranscription regulator activitystructural molecule activitysignal transducer activityprotein tagging activityobsoletemotor activityenzyme reg

36、ulator activitydefense/immunity protein activitychaperone activitycell adhesion molecule activitycatalytic activitybindingapoptosis regulator activityantioxidant activity 表1:家豬脂肪組織的已知基因功能分類表2:豬脂肪組織與豬胚胎胸腺組織和豬甲狀腺組織表達(dá)譜的比較參考文獻(xiàn):1、豬脂肪組織表達(dá)序列標(biāo)簽(ESTs)大規(guī)模測序及分析 鄧亞軍等,遺傳學(xué)報(bào),Vol.31, NO.11, 2004 2、兩種家豬心臟組織基因表達(dá)譜的分析

37、曾燕舞等,遺傳學(xué)報(bào),Vol.31, No.6, 2004 EST的代謝途徑分析(KEGG) http:/www.genome.ad.jp/kegg/ 后續(xù)分析后續(xù)分析 比較基因組學(xué)分析 基因表達(dá)譜分析 新基因研究 基因可變剪切分析 實(shí)驗(yàn)驗(yàn)證 MicroArray GeneChip RTPCR Northern blotting利用新一代測序儀進(jìn)行轉(zhuǎn)錄組學(xué)的研究 lRNAseq is a powerful tool to detcet the whole transciptome in cell and tissue.lPrevious RNAseq research focus on mRNA

38、, but recent studies prove that part of functional noncoding transctipt and protein-coding RNAs are lack of polyA.Content of transcriptome1. Genes: expression , alterante splices2. Noncoding RNA: snoRNA, mRNA-like ncRNA, snRNA, some antisense transcripts, pesudogenes, retrotransposon ,and others fun

39、ctional RNAs3. Some repeat elements RNA-seq的生物學(xué)重復(fù)和標(biāo)準(zhǔn)1.至少有兩個(gè)生物學(xué)重復(fù),除非“短時(shí)間梯度取樣”(overlapping time points with high temporal resolution)不需要技術(shù)重復(fù)2.對基因注釋較好的物種,只定量比較研究,可用reads大于20M;用于注釋基因組的轉(zhuǎn)錄組,大于100M3.最好有濃度不同長度不同的絕對定量control (Spike-in),以評估m(xù)apping質(zhì)量、測序均勻性和RNA-seq定量效果4.“3端/5端比值”是衡量RNA完整性的關(guān)鍵指標(biāo)(理想值是1),也要進(jìn)行計(jì)算評估5.

40、樣品處理流程,文庫構(gòu)建流程,測序機(jī)器,測序類型,分析軟件,樣品評估關(guān)鍵指標(biāo),rpkm值關(guān)鍵結(jié)果完備。BackgroundmRNA-seqBackgroundSAGEHashimoto S-i, et al. (2009) PLoS ONETotal RNARibosomal RNA Depletion18S RNA28S RNArRNA-depleted RNAFragmentation of RNALigation to AdaptorcDNA RT and RNaseH DigestionP2 PrimerP1 PrimercDNA AmplificationExcise cDNA 140

41、-200bp(to RNA 50-110nt)Size Selection by PAGE SOLiD emulsion PCRSOLiD SequencingrRNA depletion 中國科學(xué)院Transcriptome TechnologyQ1: Which species do you want to study? Is it have finished genome sequences and better gene annotation ? Fragment (Mapping ) or Mate Pair (Assembly) SOLiD or Solexa or 454Q2:

42、whats the major question do you interested ? mRNA or whole RNA population (including mRNA, non-coding RNA and so on )? Poly-A method or rRNA-minus methodsQ3: If you interested in anti-sense transcript ?SOLiD or Solexa Q4: If you concern about gene structure variation?Mate-Pair or Fragment Human, SOL

43、iD, Fragment and Poly-A methods sequencingResultResult Mapping strategyJunction database construction中國科學(xué)院Mapping and Assembly toolsBWA - BWA is a fast light-weighted tool that aligns relatively short sequences (queries) to a sequence database (targe), such as the human reference genomeSeqMap - A To

44、ol For Mapping Millions Of Short Sequences To The Genome.MAQ - stands for Mapping and Assembly with Quality It builds assembly by mapping short reads to reference sequences. ERANGE - Mapping and Quantifying Mammalian Transcriptomes by RNA-SeqCufflinks - assembles transcripts, estimates their abundan

45、ces, and tests for differential expression and regulation in RNA-Seq samples.iAssembler a standalone package to assemble ESTs generated using Sanger and/or Roche-454 pyrosequencing technologies into contigs.MapPER - an RNA-seq paired-end read (PER) protocol.Support splice mapping and quantify TopHat

46、 - is a fast splice junction mapper for RNA-Seq reads.SpliceMap - SpliceMap is a de novo splice junction discovery tool. It offers high sensitivity and support for arbitrarily long RNA-seq read lengths.MapSplice - Splice Junction Mapping Tool.Trinity RNA-Seq Assembly software solutions targeted to t

47、he reconstruction of full-length transcripts and alternatively spliced isoforms from Illumina RNA-Seq dataPALMapper - a combination of the spliced alignment method QPALMA with the short read alignment tool GenomeMapper.RNA-Seq Data Analysis Tools中國科學(xué)院Web-based toolsrQuant.web - is a web service to p

48、rovide convenient access to tools for the quantitative analysis of RNA-Seq data. Galaxy - Mapping pipeline for Illumina, 454, and SOLiD sequencing data.UCSC Genome Browser - This site contains the reference sequence and working draft assemblies for a large collection of genomes. It also provides por

49、tals to the ENCODE and Neandertal projects.Bioconductor - Bioconductor is an open source and open development software project for the analysis and comprehension of genomic data.ExpEdit - is a web application for assessing RNA editing in human at known or user specified sites supported by transcript

50、 data obtained by RNA-Seq experiments.Myrna - a cloud computing tool for RNA sequence.GenePattern - is a powerful genomic analysis platform that provides access to more than 100 tools for gene expression analysis, proteomics, SNP analysis and common data processing tasks.OthersScripture - is a metho

51、d for transcriptome reconstruction that relies solely on RNA-Seq reads and an assembled genome to build a transcriptome ab initio.CisGenome - An integrated tool for tiling array, ChIP-seq, genome and cis-regulatory element analysis.中國科學(xué)院ArrayExpressHTS - is an R based pipeline for pre-processing, ex

52、pression estimation and data quality assessment of high throughput sequencing transcriptional profiling (RNA-seq) datasets.RSEQtools - a modular framework to analyze RNA-Seq data using compact, anonymized data summaries.RNA-MATE - A recursive mapping strategy for high-throughput RNA-sequencing data.

53、SAMMate - an RNA-seq analysis pipeline, allows processing of SAM/BAM files and is compatible with both single-end and paired-end sequencing technologies.Oqtans: Online Quantitative Transcriptome Analysis.DESeq - Digital gene expresion analysis based on the negative binomial distribution.EdgeRMapping

54、 resultmRNA-seq ribominusRNA-seqTotal reads92914107140233818Unique mapping2646580628.48%2609238018.61%Multiple mapping43945144.73%2567128918.31%Junction mapping13351411.44%7717560.55%Ribo mapping13587531.46%1410382910.06%un-mappable5935989363.89%7359456452.48%Multiple10 random tags71837216.35%178766

55、1069.64%2-10 random tags367614283.65%779467930.36%Unique mapintron391023114.77%647456124.81%exon-exon junction6567912.48%4030311.54%exon1574546959.49%769826329.50%others 615331523.25%1151652544.14%Detected genes by two methods Another distributionRibominus RNAseq provides more even coverage along th

56、e gene bodyGenes correlationGene expression normalization Fragment Reads: RPKM: quantified transcript levels in reads per kilobase of exon model per million mapped reads RPKM統(tǒng)計(jì)的是每個(gè)基因中的read個(gè)數(shù)Pair-end Reads: FPKM: quantified transcript levels in fragment reads per kilobase of exon model per million ma

57、pped reads (fragment is a pair of reads for paired end data) FPKM統(tǒng)計(jì)的是每個(gè)轉(zhuǎn)錄本isoform中的fragment個(gè)數(shù)Primary analysis - distribute reads3. Distribution of random mapping reads according to primary RPKM4. re-calculate the RPKM -gene expression value5. Differential expression - IDEG6 Pathway analysis - GenMap

58、p Mapping browser - UCSC Genome browser Function analysis - GO , KEGG 基因表達(dá)譜的分析 專一比對到外顯子的序列數(shù)109 外顯子長度專一比對的所有序列數(shù)基因表達(dá)豐度: RPKM=8484 三個(gè)時(shí)期表達(dá)基因的聚類分析基因表達(dá)譜的分析8585Annotation for noncoding RNA1. Collection annotation data:Noncoding RNA databaseRNAdbfRNAdbNONCODEFANTOM3RefseqEnsemblAnnotation for noncoding RNA2

59、. Integrate all the known transcription regions and name regions according to database rank.3. Mapping reads to above-mentioned data4. Cluster the remain reads.Non-coding identification (Brain)Non-coding identification (Hela)Noncoding RNA distribution in the annotation databaseNoncoding regions plot

60、s Distribution of non-coding region (Brain)Distribution of non-coding region (Hela)Powerful detection for some transctiptsPowerful detection for some transctiptsPowerful detection for some transctiptsRepeat region expressionIntron expressionJunction expressionExon skip is more prevalence Antisense trans

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論