R語言與資料分析之資料勘探_第1頁
R語言與資料分析之資料勘探_第2頁
R語言與資料分析之資料勘探_第3頁
R語言與資料分析之資料勘探_第4頁
R語言與資料分析之資料勘探_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

R語言與資料分析之資料勘探R隨著BigData熱潮,R的身價大翻轉(zhuǎn),變成了資料科學(xué)界眼中的寶。不只是木訥的統(tǒng)計學(xué)家熟知它,包括WallStreet交易員、生物學(xué)家,以及硅谷開發(fā)者,他們都相當(dāng)熟悉R。多元化的公司象是Google、Facebook、美國銀行以及NewYorkTimes通通都使用R,它的商業(yè)效用持續(xù)提高。S語言S語言,一種用于統(tǒng)計的程序語言,主要用于統(tǒng)計運(yùn)算,它在1975年至1976年間在貝爾實驗室(BellLaboratories)被開發(fā)出來。由貝爾實驗室的約翰·錢伯斯(JohnChambers)、瑞克·貝克爾(RickBecker)與艾倫·威爾克斯(AllanWilks)共同研發(fā)。它的目標(biāo)在于,快速而忠實的將想法轉(zhuǎn)化為軟件。當(dāng)時最主要的統(tǒng)計運(yùn)算程序,都是直接呼叫Fortran的子程序。但是S語言采用了高度交互式的方法來實作R語言與S-PLUS是它的后繼者。R是什么?「TheRenvironment」是由S語言所轉(zhuǎn)變而來,由貝爾實驗室的JohnChambers最初所設(shè)計,繼而有DouglasBates,RickBecker,BillCleveland,TrevorHastie,DarylPregibon及AllanWilks等人所實踐落實及修改。所以事實上Rlanguage就是「新的S語言」。承襲S語言的設(shè)計理念,它是一個整合型的資料處理軟件及統(tǒng)計軟件,同時也是繪圖軟件。R是什么?R最初是由來自紐西蘭奧克蘭大學(xué)的RossIhaka和RobertGentleman開發(fā),也因此稱為R。現(xiàn)在則由所謂的「R開發(fā)核心團(tuán)隊」負(fù)責(zé)。R大致上的語言方式與S或S-plus語言相通,最大的不同乃在于結(jié)果的輸出,R僅會顯示最少的訊息,但可以將想要輸出結(jié)果儲存為一個物件(object),以提供后續(xù)演算,這也是與許多統(tǒng)計軟件如:SAS、SPSS不同的地方。R是什么?由于它是免付費(fèi)的公開軟件,原始碼也可自由下載使用,在加上十分容易在官方網(wǎng)站(/)找到別人寫好的套件(Package)或分析程序碼,因此近年來使用的人越來越多,并且不乏許多專業(yè)人士,如:風(fēng)險分析師、研究學(xué)者、統(tǒng)計學(xué)家等。R能快速的擴(kuò)張歸功于它的物件導(dǎo)向功能,具有執(zhí)行使用者自訂功能及Package的能力。另外他在程序語匯上的彈性也是容易編輯也成為擴(kuò)展的優(yōu)點。資料科學(xué)家在BigData時代下,資料科學(xué)家不但被《哈佛商業(yè)評論》譽(yù)為21世紀(jì)最性感(Sexiest)的工作,資料科學(xué)家有多「性感」?讓我們很現(xiàn)實地從薪資說起。根據(jù)美國商業(yè)智慧軟件公司SiSense調(diào)查研究指出,信息分析相關(guān)人才起薪約為年薪5.5萬美元(約臺幣180萬),換句話說,相較美國大學(xué)畢業(yè)生平均年薪為4.76萬美元,高出7400美元,而最高薪的資料科學(xué)家,平均年薪為13.2萬美元(約臺幣440萬),打敗一票如蘋果、高通等大型科技公司的高階工程師。資料科學(xué)家Gartner報告指出,2018年全球?qū)?40萬個職場新工作與BigData有關(guān);另外,麥肯錫預(yù)估,到了2018年,光是美國就需要至少30萬個懂得BigData的人才,屆時市場至少短缺14~19萬個具備深度分析資料的人才!資料科學(xué)家根據(jù)一位資料軟件相關(guān)業(yè)者指出,具備資料搜集與分析的碩士畢業(yè)生,「起薪起碼44K起跳!」他指出,如果有一年至兩年經(jīng)驗的資料探勘人才,平均月薪甚至領(lǐng)到七萬元,都不是問題,換句話說,當(dāng)上資料科學(xué)家,等于擁有一張年薪百萬元的入場券。資料科學(xué)家BigData應(yīng)用在全球各國發(fā)酵之際,伴隨而來的問題,就是各國普遍缺乏資料科學(xué)家。在臺灣,BigData的應(yīng)用雖然才已經(jīng)萌芽,但是要面臨的幾項重大挑戰(zhàn),除了資料分析人才不足之外,其他還有在地顧問服務(wù)不足以及對資料價值的敏感度不足的問題,而這些因素都將影響巨量資料在臺灣市場的發(fā)展。資料科學(xué)家的工作職缺,從2011年開始急速攀升,成為前10大熱門職缺。這項統(tǒng)計是匯集1千多個人力銀行的數(shù)百萬個職缺結(jié)果。資料科學(xué)家資料科學(xué)家當(dāng)信息科學(xué)博士碰上數(shù)據(jù)時,常常會花太多時間思考用哪種算法,反而忽略一般性問題。象是哪套變量(或特征)比較重要等等。資料科學(xué)家康迪多(JohnCandido)說:「我不想貶低博士學(xué)歷的價值,但我不覺得這是(成為好的資料科學(xué)家的)必要條件?!官Y料分析師和商業(yè)情報專家知道要分析哪些資料,但資料科學(xué)家的作法更具實驗性,他們必須找出資料組合,想出可以從中挖掘出哪些信息,以及如何挖掘。WhyLearnR?為何學(xué)R?BecauseRisoneofthemostdemandedscriptinglanguagedevelopedbyandforstatisticians.R是為與被統(tǒng)計學(xué)家所開發(fā)的最需要的語言之一。Withitsunparalleledadvantages,weintroducetoyouwhatRcandoforpresentandfutureBusinessAnalysts.憑借其無可比擬的優(yōu)勢,我們向大家介紹R能夠為當(dāng)前和未來的商業(yè)分析師做什么。WhyLearnR?WhyLearnR?為何學(xué)R?下面是R如此受資料科學(xué)家歡迎的9優(yōu)點:RisaFree,OpenSourceLanguage(R是免付費(fèi)的公開軟件)R是免費(fèi)提供的!這意味著,任何人都可以從互聯(lián)網(wǎng)上下載R,并開始工作。還有什么?你甚至可以修改代碼并添加您自己的創(chuàng)新吧。R沒有許可的限制,因為它是在GNU(通用公共許可證)發(fā)行的,是一個開放程序碼的語言。WhyLearnR?為何學(xué)R?下面是R如此受資料科學(xué)家歡迎的9優(yōu)點:2.RisCross-PlatformCompatible(跨平臺兼容的):其中的R的最大的優(yōu)點就是可以在多個作業(yè)系統(tǒng)和各種軟件/硬件上執(zhí)行R。它經(jīng)常使用在MicrosoftWindows(32位和64位),蘋果,GNU/Linux,UNIX以及其衍生出的系統(tǒng),如MacOSX,Darwin,F(xiàn)reeBSD,Solaris等。它還可以在Mainframes的系統(tǒng)上運(yùn)行。由于將R開發(fā)核心團(tuán)隊投入的努力,使其跨平臺兼容!WhyLearnR?為何學(xué)R?下面是R如此受資料科學(xué)家歡迎的9優(yōu)點:MostAdvancedStatisticalProgrammingLanguage(最進(jìn)階的統(tǒng)計程序語言):R程序師可以處理大量復(fù)雜的物件,用Excel交換資料,確保程序碼的準(zhǔn)確,保存每計算步驟的軌跡,做為日后參考的歷史、做進(jìn)階統(tǒng)計分析、

做復(fù)雜的視覺化分析等。R的整體結(jié)構(gòu)和語法是專門發(fā)展用于統(tǒng)計計算的。WhyLearnR?為何學(xué)R?下面是R如此受資料科學(xué)家歡迎的9優(yōu)點:OutstandingGraphicalOutputs(優(yōu)秀的圖形輸出):WhyLearnR?為何學(xué)R?下面是R如此受資料科學(xué)家歡迎的9優(yōu)點:RisFlexible‘n’Fun(R是靈活與有趣的):在R寫你自己的函數(shù)是容易與有趣的,而且可以發(fā)表你的R軟件做為附加套件!WhyLearnR?為何學(xué)R?下面是R如此受資料科學(xué)家歡迎的9優(yōu)點:RisExtremelyComprehensive(R是非常全方位的):想象一下,一個程序語言提供超過4800套件從生物資訊、計量經(jīng)濟(jì)和空間分析各種與資料探勘相關(guān)的知識庫!R程序師執(zhí)行各種各樣的功能,例如:資料處理、古典統(tǒng)計檢定、統(tǒng)計建模(無論是線性或非線性)、和圖形的技術(shù)、分類、集群、等等。WhyLearnR?為何學(xué)R?下面是R如此受資料科學(xué)家歡迎的9優(yōu)點:RSupportsExtensions(R支援推廣):R不只是全方位的語言且其結(jié)構(gòu)是非??赏茝V的.R的資料結(jié)構(gòu)有vectors,scalars,dataframes,timeseries,matrices,lists,etc.R也支援矩陣運(yùn)算.

WhyLearnR?為何學(xué)R?下面是R如此受資料科學(xué)家歡迎的9優(yōu)點:8.RhasaVastCommunity(R有一個龐大的社群):隨著越來越多的人和企業(yè)采用R,R創(chuàng)造了一個龐大的社區(qū)!這些志同道合的人,用自己的經(jīng)驗替論壇,社交媒體,R會議和其他網(wǎng)絡(luò)管道帶來許多價值。透過這些使用R的社團(tuán),學(xué)生和專業(yè)人士對于R是甚么,R的優(yōu)勢以及如何使用R的特點在他們的職涯上,可以得到一個清楚的說法。WhyLearnR?為何學(xué)R?下面是R如此受資料科學(xué)家歡迎的9優(yōu)點:ReasilyRelatestootherProgrammingLanguages(R容易與其他程序語言連結(jié)):R容易與其他程序語言連結(jié)。當(dāng)資料由其他地方輸入時,R也非常友善,資料不僅來可來自MicrosoftExcel中,也可來自MicrosoftAccess、MySQL和SQLite的,Oracle等。R能夠同時使用ODBC(開放式數(shù)據(jù)庫連接協(xié)議)和ROracle包很容易地連接到各種資料庫Datamining資料探勘資料探勘(Datamining),又譯為數(shù)據(jù)挖掘、資料挖掘、資料采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英文:Knowledge-DiscoveryinDatabases,縮寫:KDD)中的一個步驟。資料探勘一般是指從大量的資料中自動搜尋隱藏于其中的有著特殊關(guān)聯(lián)性(屬于Associationrulelearning)的信息的過程。資料挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。資料探勘方法資料探勘的方法包括監(jiān)督式學(xué)習(xí)(Supervisedlearning)、非監(jiān)督式學(xué)習(xí)(Unsupervisedlearning)、關(guān)聯(lián)分組(AffinityGrouping)與購物籃分析(MarketBasketAnalysis)或者稱為關(guān)聯(lián)規(guī)則分析、集群(Clustering)與描述(Description)。監(jiān)督式學(xué)習(xí)包括:分類、估計、預(yù)測。資料探勘定義資料探勘有以下這些不同的定義:「從資料中提取出隱含的過去未知的有價值的潛在信息」「一門從大量資料或者數(shù)據(jù)庫中提取有用信息的科學(xué)?!贡M管通常資料挖掘應(yīng)用于資料分析,但是像人工智能(AI)一樣,它也是一個具有豐富含義的詞匯,可用于不同的領(lǐng)域。它與KDD的關(guān)系是:KDD是從資料中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而資料探勘是KDD通過特定的算法在可接受的計算效率限制內(nèi)生成特定模式的一個步驟。事實上,在現(xiàn)今的文獻(xiàn)中,這兩個術(shù)語經(jīng)常不加區(qū)分的使用。Data

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論