




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優(yōu)質文檔-傾情為你奉上大數據、云計算及分布式淺析先進性技術專題報告目錄摘要:大數據(big data science)和云計算(cloud computing)是當今信息時代下,最具發(fā)展前景的熱門領域,無疑是信息工業(yè)革命中的又一次令人興奮的技術浪潮,該領域的迅猛發(fā)展將會在相關的項目領域帶來概念以及技術上的顛覆性改變,同時也會對人類的生活方式和對信息的認知模式帶來巨大的沖擊。分布式(distributed system)的發(fā)展為大數據與云計算在技術上奠定了實現的基礎,大數據的處理分析需要龐大的計算能力,云計算為此提供強有力的支持,而云計算的本質就是分布式系統,將無數在空間上分離的計算機資源匯
2、聚到一起,形成一個巨大的資源池,用戶根據自己的需要從中獲取所需的云平臺資源,這一過程運用到了虛擬化技術(virtualization),將無數物理上隔離的并且計算能力有限的計算機虛擬化成了一個計算能力相當可觀的資源池,對于用戶而言這些物理計算機是透明的,他們只需要關心自己實際獲取到的資源。事實上這也正是阿里巴巴在去IOE化過程中應用的技術,采用開源軟件在水平方向上進行拆分和分布式部署,具有很強的實際參考意義。1 大數據大數據由巨型數據集組成,這些數據集大小常超出人類在可接受時間下的收集、庋用、管理和處理能力。大數據的大小經常改變,截至2012年,單一數據集的大小從數太字節(jié)(TB)至數十兆億字節(jié)
3、(PB)不等。在一份2001年的研究與相關的演講中,麥塔集團(META Group,現為高德納)分析員道格·萊尼(Doug Laney)指出數據增長的挑戰(zhàn)和機遇有三個方向:量(Volume,數據大小)、速(Velocity,數據輸入輸出的速度)與多變(Variety,多樣性),合稱“3V”或“3Vs”。高德納與現在大部分大數據產業(yè)中的公司,都繼續(xù)使用3V來描述大數據。高德納于2012年修改對大數據的定義:“大數據是大量、高速、及/或多變的信息資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最優(yōu)化處理。”另外,有機構在3V之外定義第4個V:真實性(Veracity)為第四特點。
4、大數據必須借由計算機對數據進行統計、比對、解析方能得出客觀結果。美國在2012年就開始著手大數據,奧巴馬更在同年投入2億美金在大數據的開發(fā)中,更強調大數據會是之后的未來石油。大數據,或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規(guī)模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的形式的信息。在總數據量相同的情況下,與個別分析獨立的小型數據集(data set)相比,將各個小型數據集合并后進行分析可得出許多額外的信息和數據關系性,可用來察覺商業(yè)趨勢、判定研究質量、避免疾病擴散、打擊犯罪或測定實時交通路況等;這樣的用途正是大型數據集盛行的原因。截至2012年,技
5、術上可在合理時間內分析處理的數據集大小單位為艾字節(jié)(exabytes)。在許多領域,由于數據集過度龐大,科學家經常在分析處理上遭遇限制和阻礙;這些領域包括氣象學、基因組學、神經網絡體學、復雜的物理模擬,以及生物和環(huán)境研究。這樣的限制也對網絡搜索、金融與經濟信息學造成影響。數據集大小增長的部分原因來自于信息持續(xù)從各種來源被廣泛收集,這些來源包括搭載感測設備的移動設備、高空感測科技(遙感)、軟件記錄、相機、麥克風、無線射頻辨識(RFID)和無線感測網絡。自1980年代起,現代科技可存儲數據的容量每40個月即增加一倍;截至2012年,全世界每天產生2.5艾字節(jié)(2.5×1018字節(jié))的數據
6、。大數據幾乎無法使用大多數的數據庫管理系統處理,而必須使用“在數十、數百甚至數千臺服務器上同時平行運行的軟件”。大數據的定義取決于持有數據組的機構之能力,以及其平常用來處理分析數據的軟件之能力?!皩δ承┙M織來說,第一次面對數百GB的數據集可能讓他們需要重新思考數據管理的選項。對于其他組織來說,數據集可能需要達到數十或數百兆字節(jié)才會對他們造成困擾?!彪S著大數據被越來越多的提及,有些人驚呼大數據時代已經到來了,2012年紐約時報的一篇專欄中寫到,“大數據”時代已經降臨,在商業(yè)、經濟及其他領域中,決策將日益基于數據和分析而作出,而并非基于經驗和直覺。但是并不是所有人都對big data感興趣,有些人
7、甚至認為這是商學院或咨詢公司用來嘩眾取寵的buzzword,看起來很新穎,但只是把傳統重新包裝,之前在學術研究或者政策決策中也有海量數據的支撐,大數據并不是一件新興事物。1.1 數據挖掘(Data Mining)數據挖掘(Data mining),又譯為資料探勘、數據挖掘、數據采礦。它是數據庫知識發(fā)現(英文:Knowledge-Discovery in Databases,縮寫:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中自動搜索隱藏于其中的有著特殊關系性(屬于Association rule learning)的信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報
8、檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。數據挖掘有以下這些不同的定義:“從數據中提取出隱含的過去未知的有價值的潛在信息”“一門從大量數據或者數據庫中提取有用信息的科學?!北M管通常數據挖掘應用于數據分析,但是像人工智能一樣,它也是一個具有豐富含義的詞匯,可用于不同的領域。 它與KDD的關系是:KDD是從數據中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而數據挖掘是KDD通過特定的算法在可接受的計算效率限制內生成特定模式的一個步驟。 事實上,在現今的文獻中,這兩個術語經常不加區(qū)分的使用。數據挖掘的方法包括監(jiān)督式學習、非監(jiān)督式學習、關系分組(Af
9、finity Grouping,作關系性的分析)與購物籃分析(Market Basket Analysis)或者稱為關聯規(guī)則分析、聚類(Clustering)與描述(Description)。監(jiān)督式學習包括:分類、估計、預測。數據挖掘是因為海量有用數據快速增長的產物。使用計算機進行歷史數據分析,1960年代數字方式采集數據已經實現。1980年代,關系數據庫隨著能夠適應動態(tài)按需分析數據的結構化查詢語言發(fā)展起來。數據倉庫開始用來存儲大量的數據。因為面臨處理數據庫中大量數據的挑戰(zhàn),于是數據挖掘應運而生,對于這些問題,它的主要方法是數據統計分析和人工智能搜索技術。1.2 機器學習(Machine Le
10、arning)機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算復雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的算法。機器學習算法是一類從數據中自動分析獲得規(guī)律,并利用規(guī)律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與推斷統計學聯系尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。很多推論問題屬于無程序可循難度,所以部分的機器學習研究是開發(fā)容易處理的近似算法。機器學習已廣泛應用于數據挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學診斷、檢測信用
11、卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人等領域。機器學習有下面幾種定義: “機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能”。 “機器學習是對能通過經驗自動改進的計算機算法的研究”。 “機器學習是用數據或以往的經驗,以此優(yōu)化計算機程序的性能標準。” 一種經常引用的英文定義是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P,
12、if its performance at tasks in T, as measured by P, improves with experience E.機器學習可以分成下面幾種類別:監(jiān)督學習從給定的訓練數據集中學習出一個函數,當新的數據到來時,可以根據這個函數預測結果。監(jiān)督學習的訓練集要求是包括輸入和輸出,也可以說是特征和目標。訓練集中的目標是由人標注的。常見的監(jiān)督學習算法包括回歸分析和統計分類。無監(jiān)督學習與監(jiān)督學習相比,訓練集沒有人為標注的結果。常見的無監(jiān)督學習算法有聚類。半監(jiān)督學習介于監(jiān)督學習與無監(jiān)督學習之間。增強學習通過觀察來學習做成如何的動作。每個動作都會對環(huán)境有所影響,學習對象
13、根據觀察到的周圍環(huán)境的反饋來做出判斷。具體的機器學習算法有:構造條件概率:回歸分析和統計分類人工神經網絡決策樹高斯過程回歸線性判別分析最近鄰居法感知器徑向基函數核支持向量機通過再生模型構造概率密度函數:最大期望算法graphical model:包括貝葉斯網和Markov隨機場Generative Topographic Mapping近似推斷技術:馬爾可夫鏈蒙特卡羅方法變分法最優(yōu)化:大多數以上方法,直接或者間接使用最優(yōu)化算法。2 云計算云計算(英語:Cloud Computing),是一種基于互聯網的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設備。云計算是繼1
14、980年代大型計算機到客戶端-服務器的大轉變之后的又一種巨變。用戶不再需要了解“云”中基礎設施的細節(jié),不必具有相應的專業(yè)知識,也無需直接進行控制。云計算描述了一種基于互聯網的新的IT服務增加、使用和交付模式,通常涉及通過互聯網來提供動態(tài)易擴展而且經常是虛擬化的資源。在“軟件即服務(SaaS)”的服務模式當中,用戶能夠訪問服務軟件及數據。服務提供者則維護基礎設施及平臺以維持服務正常運作。SaaS常被稱為“隨選軟件”,并且通常是基于使用時數來收費,有時也會有采用訂閱制的服務。推廣者認為,SaaS使得企業(yè)能夠借由外包硬件、軟件維護及支持服務給服務提供者來降低IT營運費用。另外,由于應用程序是集中供應
15、的,更新可以實時的發(fā)布,無需用戶手動更新或是安裝新的軟件。SaaS的缺陷在于用戶的數據是存放在服務提供者的服務器之上,使得服務提供者有能力對這些數據進行未經授權的訪問。用戶通過瀏覽器、桌面應用程序或是移動應用程序來訪問云的服務。推廣者認為云計算使得企業(yè)能夠更迅速的部署應用程序,并降低管理的復雜度及維護成本,及允許IT資源的迅速重新分配以因應企業(yè)需求的快速改變。云計算依賴資源的共享以達成規(guī)模經濟,類似基礎設施(如電力網)。服務提供者集成大量的資源供多個用戶使用,用戶可以輕易的請求(租借)更多資源,并隨時調整使用量,將不需要的資源釋放回整個架構,因此用戶不需要因為短暫尖峰的需求就購買大量的資源,僅
16、需提升租借量,需求降低時便退租。服務提供者得以將目前無人租用的資源重新租給其他用戶,甚至依照整體的需求量調整租金。基本特征:互聯網上匯聚的計算資源、存儲資源、數據資源和應用資源正隨著互聯網規(guī)模的擴大而不斷增加,互聯網正在從傳統意義的通信平臺轉化為泛在、智能的計算平臺。與計算機系統這樣的傳統計算平臺比較,互聯網上還沒有形成類似計算機操作系統的服務環(huán)境,以支持互聯網資源的有效管理和綜合利用。在傳統計算機中已成熟的操作系統技術,已不再能適用于互聯網環(huán)境,其根本原因在于:互聯網資源的自主控制、自治對等、異構多尺度等基本特性,與傳統計算機系統的資源特性存在本質上的不同。為了適應互聯網資源的基本特性,形成
17、承接互聯網資源和互聯網應用的一體化服務環(huán)境,面向互聯網計算的虛擬計算環(huán)境(Internet-based Virtual Computing Environment,iVCE)的研究工作,使用戶能夠方便、有效地共享和利用開放網絡上的資源。互聯網上的云計算服務特征和自然界的云、水循環(huán)具有一定的相似性,因此,云是一個相當貼切的比喻。根據美國國家標準和技術研究院的定義,云計算服務應該具備以下幾條特征:隨需應變自助服務。隨時隨地用任何網絡設備訪問。多人共享資源池??焖僦匦虏渴痨`活度??杀槐O(jiān)控與量測的服務。一般認為還有如下特征:基于虛擬化技術快速部署資源或獲得服務。減少用戶終端的處理負擔。降低了用戶對于I
18、T專業(yè)知識的依賴。2.1 虛擬技術在計算機科學中,虛擬技術是一種通過組合或分區(qū)現有的計算機資源(CPU、內存、磁盤空間等),使得這些資源表現為一個或多個操作環(huán)境,從而提供優(yōu)于原有資源配置的訪問方式的技術。由于目前信息技術領域的很多企業(yè)都曾在宣傳中將該企業(yè)的某種技術稱為虛擬技術,這些技術涵蓋的范圍可以從Java虛擬機技術到系統管理軟件,這就使得準確的界定虛擬技術變得困難。因此各種相關學術論文在談到虛擬技術時常常提到的便是如前面所提到的那個不嚴格的定義。應用領域:服務器集成沙盒(Sandboxing)多運行環(huán)境多操作系統測試和性能監(jiān)視應用集成虛擬硬件軟件移植系統可管理性測試/質量保證3 分布式在計算機科學中,分布式計算(英語:Distributed computing),又譯為分散式運算。這個研究領域,主要研究分布式系統(Distributed system)如何進行計算。分布式系統是一組電腦(computer),通過網絡相互鏈接傳遞消息與通訊
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人工智能深度學習案例分析題集
- 畜牧防疫與動物養(yǎng)殖責任承擔協議
- 外包勞務承攬協議
- 某超市輻射源規(guī)定
- 我家的老物件老式鬧鐘作文(13篇)
- 2025年系列高效脫氧劑項目規(guī)劃申請報告模板
- 專業(yè)服務公司與醫(yī)院合作協議
- 2025年消防安全知識培訓實操應用篇考試題庫消防巡查試題
- 綜合案例分析題2025年大學統計學期末考試題庫實戰(zhàn)解析與實戰(zhàn)
- 2025年溫室節(jié)能遮蔭保溫幕項目規(guī)劃申請報告
- 云計算和邊緣計算在工業(yè)互聯網中的融合
- 24年海南生物會考試卷
- 中南大學學科發(fā)展與規(guī)劃處
- 高危孕產婦管理課件培訓
- 天一大聯考海南省2024屆高一物理第二學期期末考試試題含解析
- 夏季駕駛員安全培訓
- 計量經濟學論文eviews
- 《納稅籌劃(第7版)》課件 第7章 其他稅種的納稅籌劃
- 兒童被忽視量表(CNS)
- 閩教版小學英語四年級下冊總復習
- 美制螺紋對照表
評論
0/150
提交評論