



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn) 當(dāng)今時(shí)代,一方面人們?cè)谥鲃?dòng)地獲取數(shù)據(jù)。 各個(gè)科學(xué)領(lǐng)域都 在大量地獲取數(shù)據(jù),自然科學(xué)領(lǐng)域收集著從宏觀的天文數(shù)據(jù)到微 觀的基因數(shù)據(jù),經(jīng)濟(jì)、金融和人文社會(huì)科學(xué)收集著大量的觀察和 調(diào)查數(shù)據(jù)。另一方面人們?cè)诒粍?dòng)地囤積數(shù)據(jù)。 隨著計(jì)算機(jī)互聯(lián)網(wǎng)、 搜索引擎、電子商務(wù)、多種傳感器和多媒體技術(shù)的發(fā)展和廣泛使 用,各種形式的數(shù)據(jù)如江河流水般地涌來。當(dāng)今數(shù)據(jù)的獲取和規(guī) 模發(fā)生了根本的變化,統(tǒng)計(jì)學(xué)面臨著新的機(jī)遇和挑戰(zhàn), 需要在方 法論上有所突破。 一、大數(shù)據(jù)及其目的 狹義地講,大數(shù)據(jù)是一個(gè)大樣本和高維變量的數(shù)據(jù)集合。針 對(duì)樣本大的問題,統(tǒng)計(jì)學(xué)可以采用抽樣減少樣本量,達(dá)到需要的 精度。
2、目前大數(shù)據(jù)的環(huán)境包括了:數(shù)據(jù)流環(huán)境:數(shù)據(jù)快速不斷涌 來,現(xiàn)有存儲(chǔ)設(shè)備和計(jì)算能力難以應(yīng)付這種洪水般的數(shù)據(jù)流;磁 盤存儲(chǔ)環(huán)境:數(shù)據(jù)已不能完全存儲(chǔ)在內(nèi)存中,需要硬盤存儲(chǔ);分 布存儲(chǔ)環(huán)境:數(shù)據(jù)分布存儲(chǔ)在多個(gè)計(jì)算機(jī)中;多線條環(huán)境:數(shù)據(jù) 存儲(chǔ)在一個(gè)計(jì)算機(jī)中,多個(gè)處理器共享內(nèi)存。 大數(shù)據(jù)的目的是將數(shù)據(jù)轉(zhuǎn)化為知識(shí),探索數(shù)據(jù)的產(chǎn)生機(jī)制, 進(jìn)行預(yù)測和制定政策。把信息轉(zhuǎn)變?yōu)橛杏玫闹R(shí)還需漫長的時(shí) 間。“預(yù)測”不同于“制定政策”。一個(gè)兒童的鞋子越大,可以 預(yù)測他掌握的詞匯量越多; 但是,制定政策強(qiáng)制他穿大鞋子并不 能提高他的詞匯量。 二、大數(shù)據(jù)帶來的變革 大數(shù)據(jù)給我們的時(shí)代帶來了變革。目前,人們習(xí)慣于根據(jù) “研究問題
3、”來驅(qū)動(dòng)“收集數(shù)據(jù)”。今后,大數(shù)據(jù)到處可得,人 們將會(huì)用“數(shù)據(jù)”驅(qū)動(dòng)“研究問題”。 就像我們出遠(yuǎn)門前常常查 詢目的地的天氣、 交通和賓館那樣, 未來人們?cè)谘芯亢蜎Q策前將 會(huì)通過查詢數(shù)據(jù)做決定。 目前已經(jīng)有科學(xué)家開始使用軟件搜索和 匯總已發(fā)表論文中的成果。 大數(shù)據(jù)中包含有各種不同目的的數(shù)據(jù) 集,綜合利用它們可以做出原來目的之外的意外成果。例如,將 醫(yī)院病歷數(shù)據(jù)與信用卡消費(fèi)數(shù)據(jù)結(jié)合, 我們能發(fā)現(xiàn)食品與健康的 相關(guān)關(guān)系,指導(dǎo)人們進(jìn)行健康飲食。假若再加上手機(jī)和GPS等數(shù) 據(jù),還能隨時(shí)對(duì)人們進(jìn)行體檢,指導(dǎo)健身,減少猝死,幫助醫(yī)生 診斷疾病等,應(yīng)用大數(shù)據(jù)可以設(shè)想的用途不計(jì)其數(shù)。 三、大數(shù)據(jù)的處理、抽樣與分
4、析 (一)數(shù)據(jù)的預(yù)處理 大數(shù)據(jù)的預(yù)處理包括數(shù)據(jù)清洗、 不完全數(shù)據(jù)填補(bǔ)、 數(shù)據(jù)糾偏 與矯正。利用隨機(jī)抽樣數(shù)據(jù)矯正雜亂的、非標(biāo)準(zhǔn)的數(shù)據(jù)源。統(tǒng)計(jì) 機(jī)構(gòu)的數(shù)據(jù)是經(jīng)過嚴(yán)格抽樣設(shè)計(jì)獲取的, 具有總體的代表性和系 統(tǒng)誤差小的優(yōu)勢, 但是數(shù)據(jù)獲取和更新的周期長, 盡管調(diào)查項(xiàng)目 有代表性, 但難以無所不包。 而互聯(lián)網(wǎng)數(shù)據(jù)的獲取速度快、 量大、 項(xiàng)目繁細(xì), 但是難以避免數(shù)據(jù)獲取的偏倚性。 將統(tǒng)計(jì)機(jī)構(gòu)的數(shù)據(jù) 作為金標(biāo)準(zhǔn)和框架對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行矯正, 將互聯(lián)網(wǎng)數(shù)據(jù)作為補(bǔ) 充資源對(duì)統(tǒng)計(jì)機(jī)構(gòu)的數(shù)據(jù)進(jìn)行實(shí)時(shí)更新, 也許是解決問題的一個(gè) 思路。 (二)大數(shù)據(jù)環(huán)境的抽樣 大數(shù)據(jù)的抽樣方法有待研究。“樣本”不必使用所有“數(shù) 據(jù)”,
5、不管鍋有多大,只要充分?jǐn)噭颍穱L一小勺就知道其滋味。 針對(duì)大數(shù)據(jù)流環(huán)境,需要探索從源源不斷的數(shù)據(jù)流中抽取足以滿 足統(tǒng)計(jì)目的和精度的樣本。 需要研究新的適應(yīng)性、序貫性和動(dòng)態(tài) 的抽樣方法。根據(jù)已獲得的樣本逐步調(diào)整感興趣的調(diào)查項(xiàng)目和抽 樣對(duì)象,使得最近頻繁出現(xiàn)的熱門數(shù)據(jù), 也是感興趣的數(shù)據(jù)進(jìn)入 樣本。建立數(shù)據(jù)流的緩沖區(qū),記錄新發(fā)生數(shù)據(jù)的頻數(shù),動(dòng)態(tài)調(diào)整 不在樣本中的數(shù)據(jù)進(jìn)入樣本的概率。 (三)大數(shù)據(jù)的分析與整合 針對(duì)大數(shù)據(jù)的高維問題,需要研究降維和分解的方法。 探討 壓縮大數(shù)據(jù)的方法,直接對(duì)壓縮的數(shù)據(jù)核進(jìn)行傳輸、 運(yùn)算和操作。 除了常規(guī)的統(tǒng)計(jì)分析方法,包括高維矩陣、降維方法、變量選擇 之外,需要研究大
6、數(shù)據(jù)的實(shí)時(shí)分析、 數(shù)據(jù)流算法。不用保存數(shù)據(jù), 僅掃描一遍數(shù)據(jù)的數(shù)據(jù)流算法, 考慮計(jì)算機(jī)內(nèi)存和外存的數(shù)據(jù)傳 送問題、分布數(shù)據(jù)和并行計(jì)算的方法。如何無信息損失或無統(tǒng)計(jì) 信息損失地分解大數(shù)據(jù)集,獨(dú)立并行地在分布計(jì)算機(jī)環(huán)境進(jìn)行推 斷,各個(gè)計(jì)算機(jī)的中間計(jì)算結(jié)果能相互聯(lián)系溝通,構(gòu)造全局統(tǒng)計(jì) 結(jié)果。研究多個(gè)數(shù)據(jù)資源的融合算法。 研究利用數(shù)據(jù)流尋找模型 變化時(shí)間點(diǎn)的動(dòng)態(tài)變化模型。 四、結(jié)束語 一個(gè)新生事物的出現(xiàn)將必定導(dǎo)致傳統(tǒng)觀念和技術(shù)的革命。數(shù) 碼照相機(jī)的出現(xiàn)導(dǎo)致傳統(tǒng)相片膠卷和影像業(yè)的已近消亡。如果大 數(shù)據(jù)包含了所有父親和兒子的身高數(shù)據(jù),只要計(jì)算給定的父親身 高下所有兒子的平均身高就可以預(yù)測其兒子身高了。模型
7、不再重 要,當(dāng)年統(tǒng)計(jì)學(xué)最得意的回歸預(yù)測方法將被淘汰。大數(shù)據(jù)的到來 將對(duì)傳統(tǒng)的統(tǒng)計(jì)方法進(jìn)行考驗(yàn)。統(tǒng)計(jì)學(xué)會(huì)不會(huì)象科學(xué)哲學(xué)那樣, 只佩戴著歷史的光環(huán),而不再主導(dǎo)和引領(lǐng)人們分析和利用大數(shù)據(jù) 資源?,F(xiàn)在其他學(xué)科和行業(yè)涌入大數(shù)據(jù)的熱潮,如果統(tǒng)計(jì)學(xué)不抓 緊參與的話,將面臨著被邊緣化的危險(xiǎn)。 現(xiàn)今統(tǒng)計(jì)學(xué)的目標(biāo)是通 過獲取數(shù)據(jù)和分析數(shù)據(jù)發(fā)現(xiàn)真理(總體的參數(shù)和性質(zhì)),統(tǒng)計(jì)方 法和理論對(duì)數(shù)據(jù)有過高的要求。 而大數(shù)據(jù)充滿了各種隨機(jī)的、 非 隨機(jī)的誤差和偏倚,不能滿足這些苛刻的要求。 按照波普的科學(xué) 劃界準(zhǔn)則,只要我們能從大數(shù)據(jù)中提煉出具有可證偽的結(jié)論,那 么這個(gè)結(jié)論還是科學(xué)的, 可以用于知識(shí)積累。這些可證偽的大數(shù) 據(jù)結(jié)論可作為進(jìn)一步科學(xué)研究的假說,以數(shù)據(jù)驅(qū)動(dòng)研究。我們?cè)?看到大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來了機(jī)遇的同時(shí),也應(yīng)該看到現(xiàn)在的統(tǒng)計(jì) 方法普遍只適用于全部數(shù)據(jù)放在單
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 標(biāo)準(zhǔn)合同-室外景觀工程施工合同
- 高三年級(jí)上冊(cè)9月月考語文試卷匯編:文學(xué)類文本閱讀
- 餐飲部工作計(jì)劃表
- 消化內(nèi)科診療規(guī)范與臨床實(shí)踐
- 心內(nèi)科診療知識(shí)體系
- 老年人日常生活護(hù)理
- 醫(yī)院保潔培訓(xùn)課件
- 護(hù)士主班工作流程
- 學(xué)校炊事員食品安全培訓(xùn)
- 整流模塊培訓(xùn)課件
- ZZ022酒店服務(wù)賽項(xiàng)規(guī)程
- 通站(2017)8012 鐵路站場排水構(gòu)筑物
- 2024-2030年中國小型渦噴發(fā)動(dòng)機(jī)行業(yè)競爭格局展望及投資策略分析報(bào)告
- UL2251標(biāo)準(zhǔn)中文版-2017電動(dòng)汽車的插頭插座和耦合器UL中文版標(biāo)準(zhǔn)
- 網(wǎng)絡(luò)安全策略優(yōu)化方案
- 工程建筑勞務(wù)合作協(xié)議范本
- 房屋優(yōu)先購買權(quán)申請(qǐng)書
- 串標(biāo)舉報(bào)信范文
- 留學(xué)銷售話術(shù)培訓(xùn)
- 35kV電力線路遷改專項(xiàng)施工方案
- 110kV變電站施工組織總設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論