《的類型與格式》PPT課件.ppt_第1頁
《的類型與格式》PPT課件.ppt_第2頁
《的類型與格式》PPT課件.ppt_第3頁
《的類型與格式》PPT課件.ppt_第4頁
《的類型與格式》PPT課件.ppt_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

MapReduce的類型與格式,夏瑞仙,MapReduce數(shù)據(jù)處理模型非常簡(jiǎn)單:map和reduce函數(shù)的輸入和輸出是鍵/值對(duì)(key/value pair)。 本章深入討論MapReduce模型,重點(diǎn)介紹各種類型的數(shù)據(jù)(從簡(jiǎn)單文本到結(jié)構(gòu)化的二進(jìn)制對(duì)象)如何在MapReduce中使用,引言,目錄,MapReduce的類型 默認(rèn)的MapReduce作業(yè) 輸入格式 輸入分片與記錄 文本輸入 二進(jìn)制輸入 多種輸入 數(shù)據(jù)庫輸入(和輸出) 輸出格式 文本輸出 二進(jìn)制輸出 多個(gè)輸出 延遲輸出 數(shù)據(jù)庫輸出,MapReduce的類型,map:(K1,V1) list(K2,V2) reduce:(K2,list(V2) list(K3,V3) 一般來說,map函數(shù)輸入的鍵/值的類型(K1和V1)不同于輸出類型(K2和V2) reduce函數(shù)的輸入類型必須與map函數(shù)的輸出類型相同,但reduce函數(shù)的輸出類型可以不同于輸入類型,MapReduce的類型,map:(K1,V1) list(K2,V2) combine:(K2,list(V2) list(K2,V2) reduce:(K2,list(V2) list(K3,V3) combine函數(shù)與reduce函數(shù)通常是一樣的,在這種情況下,K3與K2類型相同,V3與V2類型相同,MapReduce的類型,partition:(K2,V2) integer partition函數(shù)將中間的鍵/值對(duì)(K2和V2)進(jìn)行處理,并且返回一個(gè)分區(qū)索引。實(shí)際上分區(qū)單獨(dú)由鍵決定,MapReduce的類型,為什么不能結(jié)合mapper和reducer導(dǎo)出類型呢?,默認(rèn)的MapReduce作業(yè),默認(rèn)的輸入格式是TextInputFormat,它產(chǎn)生的鍵類型是LongWritable,值類型是Text(文本行) 默認(rèn)的mapper是IdentityMapper,它將輸入的鍵和值原封不動(dòng)地寫到輸出中 IdentityMapper是一個(gè)泛型類型,它可以接受任何鍵或值的類型,只要map輸入和輸出鍵的類型相同,值的類型也相同就可以,默認(rèn)的MapReduce作業(yè),默認(rèn)的partitioner是HashPartitioner,它對(duì)每條記錄的鍵進(jìn)行哈希操作以決定該記錄應(yīng)該屬于哪個(gè)分區(qū)。每個(gè)分區(qū)對(duì)應(yīng)一個(gè)reducer任務(wù) 鍵的哈希碼被轉(zhuǎn)換為一個(gè)非負(fù)整數(shù),它由哈希值與最大的整型值做一次按位與操作而獲得,然后用分區(qū)數(shù)進(jìn)行取模操作,來決定該記錄屬于哪個(gè)分區(qū)索引,默認(rèn)的MapReduce作業(yè),默認(rèn)的reducer是IdentityReducer,它也是一個(gè)泛型類型,它簡(jiǎn)單的將所有的輸入寫到輸出中 大多數(shù)MapReduce程序不會(huì)一直用相同的鍵或值類型,所以就想上一節(jié)中描述的那樣,必須配置作業(yè)來聲明使用的類型,默認(rèn)的Streaming作業(yè),必須提供一個(gè)mapper 因?yàn)槟J(rèn)的輸入格式TextInputFormat產(chǎn)生的鍵類型是LongWritable,值類型是Text,而Streaming的輸出鍵和值(包括map的鍵和值)都是Text類型。默認(rèn)的IdentityMapper無法將LongWritable類型的鍵轉(zhuǎn)換為Text類型的鍵,Streaming中的鍵和值,Streaming應(yīng)用可以決定分隔符,該分隔符用于通過標(biāo)準(zhǔn)輸入把鍵/值對(duì)轉(zhuǎn)換為一串比特值發(fā)送到map或reduce函數(shù)。 分隔符默認(rèn)情況下是Tab(制表符),但如果鍵或值本身含有Tab,它能將分隔符修改成其他符號(hào) 輸出鍵/值對(duì)時(shí),也需要用一個(gè)可配置的分隔符來進(jìn)行分割,Streaming中的鍵和值,輸入格式,輸入格式,輸入分片與記錄 一個(gè)輸入分片(split)就是由單個(gè)map處理的輸入塊 每條記錄就是一個(gè)鍵/值對(duì) 在數(shù)據(jù)庫的場(chǎng)景中,一個(gè)輸入分片對(duì)應(yīng)于一個(gè)表上的若干行,而一條記錄對(duì)應(yīng)到一行(DBInputFormat正是這么做的,它這種輸入格式用于從關(guān)系數(shù)據(jù)庫讀取數(shù)據(jù))。,輸入格式,輸入分片與記錄 輸入分片(split)在Java中被表示為InputSplit接口 InputSplit包含一個(gè)以字節(jié)為單位的長(zhǎng)度和一組存儲(chǔ)位置(即一組主機(jī)名),輸入格式,輸入分片與記錄 InputSplit是由InputForamt創(chuàng)建的。InputForamt負(fù)責(zé)產(chǎn)生輸入分片并將它們分割成記錄。,輸入格式,FileInputFormat類 FileInputFormat是所有使用文件作為其數(shù)據(jù)源的InputFormat實(shí)現(xiàn)的基類 提供了兩個(gè)功能:一個(gè)定義哪些文件包含在一個(gè)作業(yè)的輸入中,一個(gè)為輸入文件生成分片的實(shí)現(xiàn)。,輸入格式,FileInputFormat類的輸入路徑,輸入格式,FileInputFormat類的輸入路徑 add和set方法允許指定包含的文件。如果需要排除特定文件,可以使用setInputPathFilter()方法設(shè)置一個(gè)過濾器 即使不設(shè)置過濾器,也會(huì)使用一個(gè)默認(rèn)的過濾器來排除隱藏文件(名稱中以“.“和“_“開頭的文件),輸入格式,FileInputFormat類的輸入分片,最小的輸入分片大小通常是1字節(jié) 最大的分片大小默認(rèn)為Java long類型表示的最大值,輸入格式,FileInputFormat類的輸入分片,若需增加map數(shù),可以把mapred.min.split.size調(diào)小,把mapred.max.split.size調(diào)大 若需減少map數(shù), 可以把mapred.min.split.size調(diào)大,并把mapred.max.split.size調(diào)小,輸入格式,FileInputFormat類的輸入分片,輸入格式,小文件與CombineFileInputFormat FileInputFormat會(huì)讓每個(gè)輸入文件至少產(chǎn)生一個(gè)map任務(wù), 因此如果你的輸入目錄下有許多文件, 而每個(gè)文件都很小, 例如幾十kb, 那么每個(gè)文件都產(chǎn)生一個(gè)map會(huì)增加調(diào)度開銷. 作業(yè)變慢. 那么如何防止這種問題呢? CombineFileInputFormat能有效的減少map數(shù)量. CombineFileInputFormat是針對(duì)小文件而設(shè)計(jì)的 抽象類,輸入格式,避免切分 有些應(yīng)用程序可能不希望文件被切分,而是用一個(gè)mapper完整處理每一個(gè)輸入文件。,輸入格式,把整個(gè)文件作為一條記錄來處理,輸入格式,將若干個(gè)小文件打包成順序文件的MapReduce程序,輸入格式,TextInputFormat,默認(rèn)的InputFormat,鍵是LongWritable類型,存儲(chǔ)該行在整個(gè)文件中的字節(jié)偏移量,值是Text類型,是這行的內(nèi)容,不包括任何終止符(換行符和回車符),輸入格式,KeyValueTextInputFormat,輸入格式,NLineInputFormat,輸入格式,XML,大多數(shù)XML解析器會(huì)處理整個(gè)XML文檔,所以如果一個(gè)大型XML文檔由多個(gè)輸入分片組成,那么單獨(dú)處理每個(gè)分片就有挑戰(zhàn)了 把整個(gè)文件作為一條記錄來處理 StreamXmlRecordReader類,輸入格式,二進(jìn)制輸入 SequenceFileInputFormat Hadoop的順序文件格式存儲(chǔ)二進(jìn)制的鍵/值對(duì)的序列 SequenceFileAsTextInputFormat SequenceFileAsBinaryInputFormat 變體 二進(jìn)制對(duì)象 SequenceFile.Reader的appendRaw()方法,輸入格式,多種輸入,數(shù)據(jù)格式往往會(huì)隨著時(shí)間演變 對(duì)不同的數(shù)據(jù)集進(jìn)行連接(join,也稱“聯(lián)接”)操作 MultipleInputs 允許為每條輸入路徑指定InputFormat和Mapper,輸入格式,數(shù)據(jù)庫輸入(和輸出),DBInputFormat 用于使用JDBC從關(guān)系數(shù)據(jù)庫中讀取數(shù)據(jù) 最好用于加載小量的數(shù)據(jù)集,如果需要與來自HDFS的大數(shù)據(jù)集連接,要使用MultipleInputs DBOutputFormat 適用于將作業(yè)輸出數(shù)據(jù)(中等規(guī)模的數(shù)據(jù))轉(zhuǎn)儲(chǔ)到數(shù)據(jù)庫,輸出格式,文本輸出,默認(rèn)的輸出格式是TextOutputFormat 鍵和值可以是任意類型,因?yàn)門extOutputFormat調(diào)用toString()方法把它們轉(zhuǎn)換為字符串 每個(gè)鍵和值由制表符進(jìn)行分割 與TextOutputFormat對(duì)應(yīng)的輸入格式是KeyValueTextInputFormat NullWritable,輸出格式,二進(jìn)制輸出 SequenceFileOutputFormat SequenceFileAsBinaryOutputFormat MapFileOutputFormat,輸出格式,多個(gè)輸出,輸出格式,多個(gè)輸出 MultipleOutputFormat 可以將數(shù)據(jù)寫到多個(gè)文件,這些文件的名稱源于輸出的鍵和值 抽象類,兩個(gè)實(shí)體子類:MultipleTex

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論