



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、論文閱讀成果和創(chuàng)新點論文閱讀成果和創(chuàng)新點廈門大學數(shù)據(jù)庫實驗室廈門大學數(shù)據(jù)庫實驗室羅道文羅道文2015-03-07 SAND_JOIN algorithm目目 錄錄 基于基于Locality-Aware的的reduce任務調(diào)度任務調(diào)度 SAND_JOIN算法算法不足之處不足之處 SAND_JOIN算法改進算法改進SAND_JOIN algoririthm簡單的范圍分區(qū)思想:在執(zhí)行reduce-join連接之前,先運行一個job,統(tǒng)計鍵值的分布情況,即抽樣思想,接著利用樣本的鍵值分布情況,對所有數(shù)據(jù)進行分區(qū)。分為:簡單范圍分區(qū)和虛擬處理器范圍分區(qū)。思想:Map端采樣:每個Mapper隨機選取X個樣
2、本,有n個Mapper。 Reduce端統(tǒng)計分布:只需要一個Reducer對樣本所有key值統(tǒng)計分析,構(gòu)造出分區(qū)序列。 SAND_JOIN algoririthm若執(zhí)行的Join連接有N個Reduce,則可以根據(jù)步長n*x/N獲得一個分區(qū)序列。例如: Sample:1,3,3,4,5,5,6,6,6,6,8,9,9,10,10,5個Reducer,步長為3, 分區(qū)序列為:3,5,6,9 Join Partition: key3 3key5 5key6 6key9 9 鍵為6的有兩個可選Reducer 解決: build relation: 隨機選擇一個可選Reducer probe relat
3、ion: 需發(fā)送到每個可選Reducer 適合一個大表一個小表的情況! SAND_JOIN algoririthm傾斜鍵存在大小表的情況 Samples: 1, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 5個Reducer,步進3 分區(qū)序列: 3, 5, 6, 6 - 鍵為6的有兩個可選Reducer 3 和 4 R join S,對于鍵6,若 R.6 = S.6 可將所有的S.6傳輸?shù)?和4上,然后R.6可以隨機分配到3或4上其實就是x*y=x*(y1+y2)=x*y1+x*y2SAND_JOIN algoririthm論文具體實現(xiàn): 1.將小表
4、S加載到每一臺機器,建立哈希表,的形式。 2.當R表某個鍵值key分配到某個Reducer上時,從哈希表中檢索key的value值,即tuplelist,與R表中的元組做Join操作。SAND_JOIN algoririthm虛擬處理器范圍分區(qū) 實際是N個Reducer,但假定分成 *N 個分區(qū)(為整數(shù))。 例如Samples: 1, 3, 4, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 11, 11, 11, 15, 16, 5個ReducerJoin Partition: 1,3,4,4, 5,5,6,6, 6,6,6,6, 9,10,10,11,11,1
5、1, 15,16 = 2,則分成2*5=10個分區(qū)Samples: 1, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 11, 11, 11, 15, 16, 10個ReducerJoin Partition: 1,3,3, 4, 5,5, 6,6, 6,6, 6,6, 9,10,10, 11, 11,11, 15,16 采用虛擬范圍分區(qū),數(shù)據(jù)分配更加均衡 處理方式: 輪叫調(diào)度 或 當某一節(jié)點完成時,將下一剩余任務分配給該節(jié)點 論文的實驗結(jié)果表明虛擬范圍分區(qū)優(yōu)于簡單范圍分區(qū)SAND_JOIN algoririthmLocality-Aware的的reduce任務調(diào)度任務調(diào)度思想:盡量將某個key分配給所有節(jié)點中該key最大的節(jié)點。 優(yōu)點:減少數(shù)據(jù)量的傳輸?!癏adoops framework adopts a pull scheduling strategy rather than a push one” 意思就是說JobTracker并不是把map和reduce任務push給TaskTracer,而是TaskTracker通過請求向JobTracker pull一個map或者reduce任務?;谖恢酶兄膔educe任務調(diào)度Locality-Awa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業(yè)互聯(lián)網(wǎng)平臺網(wǎng)絡(luò)安全態(tài)勢感知技術(shù)安全態(tài)勢感知與安全防護技術(shù)創(chuàng)新報告2025
- 2025年六盤水市重點中學八年級英語第二學期期中復習檢測模擬試題含答案
- 制造業(yè)數(shù)字化轉(zhuǎn)型數(shù)據(jù)治理策略與能源管理的優(yōu)化報告
- 2025年元宇宙社交平臺隱私保護與用戶體驗研究報告
- 社交媒體輿情監(jiān)測與2025年危機公關(guān)技術(shù)應用研究指南與實踐案例分析指南報告001
- 2025年單身經(jīng)濟下小型家電市場消費者購買偏好研究報告
- 2025年醫(yī)藥行業(yè)市場準入政策與監(jiān)管趨勢報告
- 2025年醫(yī)藥企業(yè)研發(fā)外包(CRO)與臨床試驗結(jié)果轉(zhuǎn)化報告
- 2025年短視頻平臺內(nèi)容監(jiān)管與網(wǎng)絡(luò)素養(yǎng)提升策略報告
- 2025年醫(yī)藥流通行業(yè)供應鏈優(yōu)化與成本控制中的供應鏈協(xié)同效應提升策略報告
- 校長在2025暑假前期末教師大會上的講話:靜水深流腳踏實地
- 2025春季學期國開電大本科《理工英語3》一平臺在線形考綜合測試(形考任務)試題及答案
- 新22J01 工程做法圖集
- 2024秋期國家開放大學本科《經(jīng)濟學(本)》一平臺在線形考(形考任務1至6)試題及答案
- 2022-2023學年安徽省阜陽市高一下學期期末教學質(zhì)量統(tǒng)測數(shù)學試卷(解析版)
- 消防改造工程技術(shù)標書模板
- 磷化膜質(zhì)量評定項目與方法
- 貸款申請表(標準模版)
- 合理應用喹諾酮類抗菌藥物專家共識精品課件
- 中醫(yī)內(nèi)科試題及答案 400題-高級職稱(七)(過關(guān)必做)
- 在挫折中成長(課堂PPT)
評論
0/150
提交評論