第12講 包系統(tǒng)課件_第1頁
第12講 包系統(tǒng)課件_第2頁
第12講 包系統(tǒng)課件_第3頁
第12講 包系統(tǒng)課件_第4頁
第12講 包系統(tǒng)課件_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十二講Bioconductor

一系列的包系統(tǒng),用來處理生物方面的數(shù)據(jù)第12講包系統(tǒng)1、Bioconductor是一個(gè)開源和開放式軟件開發(fā)項(xiàng)目。2、該項(xiàng)目起始于2001年秋季,核心成員是哈佛醫(yī)學(xué)院/哈佛公共衛(wèi)生學(xué)院的DanaFarber癌癥研究所生物統(tǒng)計(jì)組。3、Bioconductor軟件包DNA微陣列數(shù)據(jù)的處理、分析、注釋及可視化;

通用分析工具(被廣泛用于基因組數(shù)據(jù)庫的分析,如分析基因組序列、SNP數(shù)據(jù)、SAGE數(shù)據(jù)、蛋白質(zhì)組數(shù)據(jù)等。)一、Bioconductor簡(jiǎn)介第12講包系統(tǒng)主頁第12講包系統(tǒng)安裝Bioconductor軟件包1、安裝標(biāo)準(zhǔn)的bioconductor軟件包>source(“”)>biocLite()第12講包系統(tǒng)

2、安裝特定的xxxx包>source(“”)連到包的數(shù)據(jù)庫中>biocLite(“xxxx”)#biocLite(“affy”)微陣列預(yù)處理

3、菜單欄->程序包

設(shè)定CRAN鏡像選擇軟件庫安裝程序包第12講包系統(tǒng)4、從本地zip文件安裝程序包

()第12講包系統(tǒng)第12講包系統(tǒng)數(shù)據(jù)庫訪問(databaseinteraction)Rdbi;RdbiPgSQL;SAGElyzer圖形及用戶接口(graphics&userinterface)widgetTools;tkWidgets;geneplotter;hexbin;limmaGUI;affylmGUI;webbioc圖結(jié)構(gòu)(garphs)Graphs;RBGL;Rgraphviz;SNAData通用工具(generaltools)reposTools;Biobase;Biostrings;DynDoc;Ruuid;ctc;convert;Icense;exprExternal;externalVector注釋(annotation)Annotate;AnnaBuilder;Resourcer;SNPtools;Datapackages基因本體學(xué)(ontologies)goTools;ontoTools;GOstats微陣列數(shù)據(jù)預(yù)處理(pre-processing)affy;affycomp;affypdnm;affyPLM;gcrma;makecdfenv;annaffy;marray;matchprobes;vsn數(shù)據(jù)分析(analysis)daMA;edd;factDesign;genefilter;globaltest;gpls;multtest;pamr;MeasurementError.cor;Limma;ROC;Siggenes;Splicegear;RMAGEML微陣列比較基因組雜交(arrayCGH)aCGH;DNAcopy蛋白質(zhì)組學(xué)(proteomics)PROcess;Gpls;apComplexBioconductor各種包的分類介紹第12講包系統(tǒng)下載包affy,并查看其功能第12講包系統(tǒng)1、高密度寡核苷酸陣列

每個(gè)微陣列產(chǎn)生一個(gè)探針?biāo)綌?shù)據(jù)集,一些探針檢測(cè)特異的全匹配寡核苷酸(PM),另一些檢測(cè)非特異的失匹配寡核苷酸(MM)。2、cDNA微陣列

每個(gè)微陣列產(chǎn)生兩個(gè)探針?biāo)綌?shù)據(jù)集(紅色和綠色通道)二、DNA微陣列數(shù)據(jù)的來源和結(jié)構(gòu)第12講包系統(tǒng)高密度寡核苷酸陣列第12講包系統(tǒng)cDNA微陣列第12講包系統(tǒng)

一次微陣列試驗(yàn)?zāi)塬@得細(xì)胞在某種條件下的全基因組表達(dá)數(shù)據(jù),包含成千上萬個(gè)基因在細(xì)胞中的相對(duì)或絕對(duì)豐度。不同條件(細(xì)胞周期的不同階段、藥物作用的不同時(shí)間、不同腫瘤類型、不同病人等)下的基因表達(dá)數(shù)據(jù)構(gòu)成一個(gè)GXN的數(shù)據(jù)矩陣M,其中G代表基因的數(shù)目,N代表?xiàng)l件的個(gè)數(shù),通常情況下G>>N。矩陣M的每個(gè)元素xij表示第i個(gè)基因在第j個(gè)條件下的表達(dá)水平值。行向量xi=(xi1,xi2,…,xiN)代表基因i在N個(gè)條件下的表達(dá)水平,稱為基因i的表達(dá)普;列向量mj=(m1j,m2j,…mGj)代表某一條件下的各基因的表達(dá)水平。第12講包系統(tǒng)AnalysisofMicroarraysSpottedcDNAOligoSynthesis第12講包系統(tǒng)三、高密度寡核苷酸陣列的預(yù)處理Affymetrix公司是目前最大的、也是主要的寡核苷酸芯片生產(chǎn)和銷售公司。芯片上的每個(gè)基因或EST都是由一個(gè)或幾個(gè)探針組(probeset)組成,每組探針組又由11-20對(duì)25mer的探針對(duì)(probepair)組成,每探針對(duì)包括兩個(gè)探針單元(probecell),一個(gè)完全匹配探針(PM,perfectmatch)和一個(gè)中間位點(diǎn)互補(bǔ)的失配探針(MM,mis-match),用PM與MM之間的差值作為信號(hào)強(qiáng)度。每一條探針的熒光強(qiáng)度數(shù)據(jù)稱為探針?biāo)綌?shù)據(jù)(probeleveldata)。第12講包系統(tǒng)預(yù)處理概述1.1簡(jiǎn)介

探針+靶序列

雜交Hybridization

專業(yè)掃描器檢測(cè)與每個(gè)探針雜交的靶序列數(shù)量,得到其強(qiáng)度

預(yù)處理第12講包系統(tǒng)1.2任務(wù)

圖像分析、數(shù)據(jù)導(dǎo)入、背景校正、歸一化、匯總、特定探針校正①圖像分析(imageanalysis)將掃描圖像中的像素強(qiáng)度轉(zhuǎn)換成探針?biāo)綌?shù)據(jù)(probe-leveldata)。②數(shù)據(jù)導(dǎo)入(dataimport)因?yàn)閿?shù)據(jù)以不同的格式輸入,需要有靈活的數(shù)據(jù)導(dǎo)入方法,數(shù)據(jù)常位于不同的文件或數(shù)據(jù)庫表中。

第12講包系統(tǒng)③背景校正(backgroundadjustment)

被檢測(cè)的探針強(qiáng)度取決于非特異性雜交和光學(xué)檢測(cè)系統(tǒng)的噪聲,通過對(duì)觀察強(qiáng)度的校正來給出特異雜交的精確檢測(cè)。④歸一化(normalization)

對(duì)不同來源的不同雜交陣列進(jìn)行比較(逆轉(zhuǎn)錄、加標(biāo)記、雜交反應(yīng)的不同效果、陣列的物理問題、反應(yīng)物批量效應(yīng)和實(shí)驗(yàn)環(huán)境),校正系統(tǒng)陣列間的差異。第12講包系統(tǒng)⑤匯總(summarization)

有些平臺(tái),轉(zhuǎn)錄物由多重探針表示。對(duì)于每個(gè)基因,校正后的背景和歸一化的強(qiáng)度需要匯總成一個(gè)總數(shù),估計(jì)RNA轉(zhuǎn)錄物數(shù)量比例。⑥特定探針校正(probespecificcorrection)

校正試驗(yàn)結(jié)果中的異常探針?biāo)綌?shù)據(jù)⑦質(zhì)量控制(qualitycontrol)

它在可接受的隨機(jī)波動(dòng)的水平下進(jìn)行趨異檢測(cè)第12講包系統(tǒng)數(shù)據(jù)導(dǎo)入:從探針?biāo)綌?shù)據(jù)到表達(dá)值一種數(shù)據(jù)導(dǎo)入方法:1.Createadirectory,movealltherelevantCELfilestothatdirectory2.IfusingtheRguiforMicrosoftWindowsmakesureyourworkingdirectorycontainstheCelfiles(use\File->ChangeDir"menuitem).3.Loadthelibrary.>library(affy)##loadtheaffypackage4.Readinthedataandcreateanexpression,usingRMAforexample.>Data<-ReadAffy()##readdatainworkingdirectory>eset<-rma(Data)把導(dǎo)入的數(shù)據(jù)寫到文件:write.exprs(eset,file="mydata.txt")讀取特定CELfile:Data<-ReadAffy(widget=TRUE)第12講包系統(tǒng)讀取探針?biāo)綌?shù)據(jù)的信息從探針?biāo)綌?shù)據(jù)到表達(dá)值一般步驟:1.readinginprobeleveldata.2.backgroundcorrection.3.normalization.4.probespecicbackgroundcorrection,e.g.subtractingMM.5.summarizingtheprobesetvaluesintooneexpressionmeasureand,insomecases,astandarderrorforthissummary.>library(affydata)>eset<-expresso(Dilution,normalize.method="qspline",bgcorrect.method="rma",pmcorrect.method="pmonly",summary.method="liwong")write.exprs(eset,file=“Dilution.txt")第12講包系統(tǒng)背景校正:>bgcorrect.methods()[1]"bg.correct""mas""none""rma"歸一化:>normalize.methods(Dilution)[1]"constant""contrasts""invariantset"[4]"loess""methods""qspline"[7]"quantiles""quantiles.robust"特殊點(diǎn)校正>pmcorrect.methods()[1]"mas""methods""pmonly""subtractmm"匯總>express.summary.stat.methods()[1]"avgdiff""liwong""mas""medianpolish"[5]"playerout"手動(dòng)選擇參數(shù)>expresso(Dilution,widget=TRUE)探針?biāo)綌?shù)據(jù)預(yù)處理參數(shù)選擇第12講包系統(tǒng)數(shù)據(jù)分析過程中的質(zhì)量控制讀取數(shù)據(jù)的信息>DilutionAffyBatchobjectsizeofarrays=640x640features(35221kb)cdf=HG_U95Av2(12625affyids)numberofsamples=4numberofgenes=12625annotation=hgu95av2notes=affydata包提供了DILUTION數(shù)據(jù)集中的4塊芯片的數(shù)據(jù),保存在AffyBatch類的對(duì)象Dilution中。樣本來自人的肝組織和中樞神經(jīng)系統(tǒng)的細(xì)胞系,樣本中cRNA的濃度分別是10μg和20μg,與affymetrix公司的人類hgu95av2芯片雜交,每個(gè)樣本進(jìn)行兩次重復(fù)實(shí)驗(yàn)。第12講包系統(tǒng)>phenoData(Dilution)Anobjectofclass"AnnotatedDataFrame"sampleNames:20A,20B,10A,10BvarLabelsandvarMetadatadescription:liver:amountofliverRNAhybridizedtoarrayinmicrogramssn19:amountofcentralnervoussystemRNAhybridizedtoarrayinmicrogramsscanner:IDnumberofscannerused>pData(Dilution)liversn19scanner20A200120B200210A100110B1002第12講包系統(tǒng)芯片圖像:>par(mfrow=c(2,2))>image(Dilution)數(shù)據(jù)可視化第12講包系統(tǒng)>par(mfrow=c(2,2))>plot(exprs(Dilution)[,1:2],log="xy",pch=".",main="1vs2all")#重復(fù)試驗(yàn)之間的散點(diǎn)圖>plot(exprs(Dilution)[,3:4],log="xy",pch=".",main="3vs4all")散點(diǎn)圖:芯片重復(fù)性的質(zhì)量第12講包系統(tǒng)hist和boxplot可以檢查不同陣列的探針強(qiáng)度狀態(tài);>hist(Dilution)>boxplot(Dilution,col=c(1,2,3,4))陣列的值在分布的形狀或中心位置的差異使得對(duì)歸一化(標(biāo)準(zhǔn)化)的需求更加明顯。橫軸是樣本名稱,縱軸是數(shù)據(jù)值。每個(gè)樣本用一個(gè)方框表示,反映了4個(gè)分位值,框中間的橫線表示數(shù)據(jù)的中位值,框的上下線分別表示75和25分位值,框上下用虛線相連的小橫線分別表示最大和最小值。第12講包系統(tǒng)標(biāo)準(zhǔn)化>Dilution.normalized<-normalize(Dilution)>boxplot(Dilution.normalized,col=c(1,2,3,4))第12講包系統(tǒng)MA圖:將散點(diǎn)圖坐標(biāo)軸旋轉(zhuǎn)45度,另外橫軸為Aj=(Y2,j+Y1,j)/2,縱軸為Mj=Y2,j-Y1,j

,Y1和Y2分別為兩塊芯片探針數(shù)據(jù)的對(duì)數(shù)Aj表示兩快芯片對(duì)應(yīng)探針數(shù)據(jù)的對(duì)數(shù)均值Mj表示對(duì)應(yīng)探針數(shù)據(jù)的比值的對(duì)數(shù);affy軟件包中提供兩個(gè)方法畫MA圖:mva.pairs、MAplot反映表達(dá)差異第12講包系統(tǒng)MA圖>data(Dilution)>MAplot(Dilution,pairs=TRUE,plot.method="smoothScatter")上三角是對(duì)MA作圖,下三角顯示對(duì)應(yīng)MA圖中M值的中值和四分位距。對(duì)角線為芯片名稱。上四分位值Q3與下四分位值Q1之間的差稱為四分位距(IQR),即IQR=Q3-Q1第12講包系統(tǒng)訪問PM和MM數(shù)據(jù)>Index<-c(1,2,3,100,1000,2000)>pm(Dilution)[Index,]20A20B10A10B175218221.3146.3192116.0356689685.0479.0493328.32276961126.3724.3849498.3315820598.0445.0414313.0385063229.0160.0185107.0364396101.075.09865.3(第一列表示編號(hào))觀察特異點(diǎn)>mm(Dilution)[Index,]20A20B10A10B175858178.0112.8137.394.8357329388.0262.3292.0198.02283361012.8645.3665.3436.0316460231.0157.0179.0137.3385703114.075.097.067.8365036103.067.8102.063.0探針的名稱>probeNames(Dilution)[Index][1]"100_g_at""100_g_at""100_g_at""1005_at""1056_s_at""1113_at"樣品的名稱>sampleNames(Dilution)[1]"20A""20B""10A""10B"第12講包系統(tǒng)>gn<-geneNames(Dilution)>gn[100][1]"109_at">pm(Dilution,gn[100])20A20B10A10B109_at1372.0261.3272.5170.0109_at2144.084.0108.067.0109_at3365.0243.0263.0163.0109_at4536.5352.0371.3254.5109_at5441.0265.0256.0183.0109_at6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論