《大數(shù)據(jù)基礎》項目單元測試題及答案 項目二 在線測試_第1頁
《大數(shù)據(jù)基礎》項目單元測試題及答案 項目二 在線測試_第2頁
《大數(shù)據(jù)基礎》項目單元測試題及答案 項目二 在線測試_第3頁
《大數(shù)據(jù)基礎》項目單元測試題及答案 項目二 在線測試_第4頁
《大數(shù)據(jù)基礎》項目單元測試題及答案 項目二 在線測試_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

在線測試:數(shù)據(jù)采集1.單選題(分值:3分)在確定需要采集的數(shù)據(jù)之前必須先確定通過數(shù)據(jù)擬解決的問題(A)。A、正確B、錯誤2.單選題(分值:3分)企業(yè)業(yè)務系統(tǒng)數(shù)據(jù)都是使用傳統(tǒng)的關系型數(shù)據(jù)庫來存儲的(B)。A、正確B、錯誤3.單選題(分值:3分)網(wǎng)絡爬蟲是利用數(shù)據(jù)挖掘技術將非結構化數(shù)據(jù)從網(wǎng)頁中抽取出來,按照一定的規(guī)則和排列格式將數(shù)據(jù)進行分類處理,并存儲成一系列具有統(tǒng)一格式的結構化數(shù)據(jù)文件(A)。A、正確B、錯誤4.單選題(分值:3分)使用網(wǎng)絡爬蟲爬取數(shù)據(jù)時,只受技術限制,只要技術達到了,任何數(shù)據(jù)都可爬取(B)。A、正確B、錯誤5.單選題(分值:3分)通過第三方統(tǒng)計平臺采集某網(wǎng)站的數(shù)據(jù)只能是前端數(shù)據(jù)(B)。A、正確B、錯誤6.單選題(分值:3分)智能健康手環(huán)的應用開發(fā),體現(xiàn)了(A)的數(shù)據(jù)采集技術的應用。A、傳感器 B、網(wǎng)絡爬蟲 C、API接口 D、統(tǒng)計報表7.單選題(分值:3分)下列數(shù)據(jù)來源不屬于一手數(shù)據(jù)的是(D)。A.調查收集B.科學實驗C.業(yè)務系統(tǒng)直接生成D.從國家統(tǒng)計部門獲取8.多選題(分值:3分)大數(shù)據(jù)采集的主要數(shù)據(jù)來源(ABCD)A、互聯(lián)網(wǎng)數(shù)據(jù)B、日志文件C、企業(yè)業(yè)務系統(tǒng)數(shù)據(jù)。D、傳感器數(shù)據(jù)。9.多選題(分值:3分)下列關于互聯(lián)網(wǎng)數(shù)據(jù)特點的描述正確的有(ABC)。A.表現(xiàn)為雜亂特點 B.數(shù)據(jù)類型多C.互聯(lián)網(wǎng)各平臺后臺一般都具有數(shù)據(jù)統(tǒng)計功能D.互聯(lián)網(wǎng)數(shù)據(jù)沒有多少價值10.多選題(分值:3分)使用八爪魚采集器采集數(shù)據(jù)具有以下特點(ABCD)A.可以對指定元素進行采集 B.采集過程可以觀察網(wǎng)頁和預覽數(shù)據(jù)變化來驗證采集設置是否正確C.可以對采集中的流程步驟進行修改D.采集過程不需要編寫任何代碼在線測試:數(shù)據(jù)質量評估1單選題(分值:3分)數(shù)據(jù)采集階段引起數(shù)據(jù)質量問題的因素主要有兩點:數(shù)據(jù)來源和采集方法(A)。A、正確B、錯誤2單選題(分值:3分)原始數(shù)據(jù)的數(shù)據(jù)質量不一,但是有一些因素會影響數(shù)據(jù)的質量,比如信息因素、技術因素、流程因素以及實踐因素。(B)A、正確B、錯誤3單選題(分值:3分)某位員工在儲存數(shù)據(jù)時,將郵箱字段的值記錄為179864378@126,這違反了數(shù)據(jù)質量的(B)A、完整性 B、一致性 C、準確性 D、及時性4單選題(分值:3分)(C)是數(shù)據(jù)質量最為基礎的一項評估標準。A、數(shù)據(jù)一致性B、數(shù)據(jù)準確性C、數(shù)據(jù)完整性D、數(shù)據(jù)及時性5單選題(分值:3分)相比依賴于小數(shù)據(jù)和精確性的時代,大數(shù)據(jù)因為更強調數(shù)據(jù)的(),幫助我們進一步接近事實的真相。(D)A、安全性B、完整性C、混雜性D、完整性和混雜性6.多選題(分值:3分)下列描述中表示會產生冗余數(shù)據(jù)的是(AB)。A.某數(shù)據(jù)集的變量名稱為“用戶編碼”而在另一個數(shù)據(jù)集中為“ID”B.數(shù)據(jù)集中某兩個變量之間存在相關或推導關系C.某數(shù)據(jù)集中的商品價格以“元”為單位,另一個數(shù)據(jù)集中卻為“萬元”D.某數(shù)據(jù)集的規(guī)范是“3位”,而另一個數(shù)據(jù)集中的要求位“5位”7.多選題(分值:3分)數(shù)據(jù)質量是保證數(shù)據(jù)應用的基礎,數(shù)據(jù)質量評估標準主要有(ABCD)。A.數(shù)據(jù)準確性 B.數(shù)據(jù)完整性C.數(shù)據(jù)一致性 D.數(shù)據(jù)及時性8.多選題(分值:3分)數(shù)據(jù)的可信性由以下因素決定(ABC)。A.數(shù)據(jù)來源的權威性B.數(shù)據(jù)的規(guī)范性C.數(shù)據(jù)產生的時間D.數(shù)據(jù)沒有缺失或異常數(shù)據(jù)9.多選題(分值:3分)數(shù)據(jù)預處理的主要任務主要包括(ABCD)。A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)歸約10.多選題(分值:3分)最常見的數(shù)據(jù)準確性錯誤有(ABCD)。A.異常的大或小的數(shù)據(jù)。B.亂碼數(shù)據(jù)。C.偏離期望值的孤立點數(shù)據(jù)D.數(shù)量級數(shù)據(jù)錯誤。在線測試:數(shù)據(jù)清洗1.單選題(分值:3分)數(shù)據(jù)庫表中有一個屬性值相同的記錄就被認為是重復的記錄(B)A、正確B、錯誤2.單選題(分值:3分)在Excel中可以使用哪一快捷鍵來定位空值?(C)A、Ctrl+VB、Ctrl+EnterC、Ctrl+GD、Ctrl+F3.單選題(分值:3分)數(shù)據(jù)清洗的方法不包括(D)A、處理殘缺數(shù)據(jù) B、處理噪聲數(shù)據(jù)C、處理冗余數(shù)據(jù) D、一致性檢查4.單選題(分值:3分)下列哪一種方法可以用來處理缺失數(shù)據(jù)?(C)A、數(shù)據(jù)變換B、數(shù)據(jù)集成C、數(shù)據(jù)清洗D、數(shù)據(jù)排序5.多選題(分值:3分)如果缺失字段的重要性較高,為了保證數(shù)據(jù)的準確性,往往會將數(shù)據(jù)進行補全,補全缺失值的方法有(ABC)。A、以同一指標的樣本統(tǒng)計量數(shù)據(jù)(均值、中位數(shù)、眾數(shù)等)填充B、以業(yè)務知識或經(jīng)驗推測填充C、以不同指標的計算結果填充D、以簡單填充的方式將數(shù)據(jù)補全6.多選題(分值:3分)在數(shù)據(jù)清洗的開始階段我們一般需要做以下準備工作(ABC)。A.將數(shù)據(jù)導入處理工具。B.查看元數(shù)據(jù),包括字段解釋、數(shù)據(jù)來源、代碼表等一切描述數(shù)據(jù)的信息。 C.抽取一部分數(shù)據(jù),使用人工查看方式,對數(shù)據(jù)本身有一個直觀的了解,并且初步發(fā)現(xiàn)一些問題。D.先刪除一部分數(shù)據(jù)。7.多選題(分值:3分)數(shù)據(jù)缺失值常常表示為(ABD)。A.空值B.NaNC.NoneD.錯誤的標識符(#VALUE?。?.多選題(分值:3分)Excel數(shù)據(jù)重復值的清洗方法通常有(ABCD)。A.通過“數(shù)據(jù)”菜單刪除重復數(shù)據(jù)B.用VLOOKUP函數(shù)快速查詢刪除重復值C.用COUNTIF函數(shù)簡單查詢刪除重復值D.用條件格式快速核對刪除重復值9.多選題(分值:3分)Excel數(shù)據(jù)操作中發(fā)現(xiàn)異常值的幾種方法(ABD)。A.通過篩選法發(fā)現(xiàn)數(shù)據(jù)異常值B.通過常識統(tǒng)計分析方法發(fā)現(xiàn)數(shù)據(jù)異常值C.通過“數(shù)據(jù)”菜單中異常值按鈕發(fā)現(xiàn)異常D.通過箱線圖檢測異常值10.多選題(分值:3分)在缺失數(shù)據(jù)清洗過程中,如果缺失字段的重要性高,缺失率高,采用的策略有(ABC)。A.嘗試從其他渠道取數(shù)補全B.去除記錄,并在結果中標明C.使用其它字段通過計算獲取D.不做處理或簡單填充在線測試:數(shù)據(jù)集成、變換和歸約1.單選題(分值:3分)數(shù)據(jù)集成核心任務是將互相關聯(lián)的分布式異構數(shù)據(jù)源集成到一起,減少結果數(shù)據(jù)集中冗余和不一致問題,提高后面數(shù)據(jù)挖掘過程的準確性和速度。(A)A、正確B、錯誤2.單選題(分值:3分)在數(shù)據(jù)變換中,聚集法和聚類法都是對數(shù)據(jù)進行匯總和集中(B)A、正確B、錯誤3.單選題(分值:3分)數(shù)據(jù)歸約技術可以用來得到數(shù)據(jù)集的歸約表示,一般歸約后的數(shù)據(jù)集比原數(shù)據(jù)集大得多。(B)。A、正確B、錯誤4.單選題(分值:3分)以下哪一種屬于數(shù)據(jù)概化(D)A、根據(jù)半徑屬性計算出圓的周長及面積屬性B、根據(jù)產品評估得分劃分產品品質C、將“××年××月××日”的日期轉換為“××/××/××”,D、根據(jù)出生日期的屬性抽象為為80后、90后、00后等5.單選題(分值:3分)經(jīng)過一系列處理,在基本保持原始數(shù)據(jù)完整性的基礎上,減少數(shù)據(jù)規(guī)模的是(C)?A、數(shù)據(jù)清洗B、數(shù)據(jù)融合C、數(shù)據(jù)規(guī)約D、數(shù)據(jù)挖掘6.單選題(分值:3分)數(shù)據(jù)歸約中屬性子集選擇的目標是找出最小屬性集,使數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布。(A)A、正確B、錯誤7.多選題(分值:3分)數(shù)據(jù)規(guī)范化的主要作用(AC)A、去掉量綱,使指標之間具有可比性B、使數(shù)據(jù)整齊排列C、將數(shù)據(jù)限制到一定區(qū)間,使運算更為便捷D、使數(shù)據(jù)統(tǒng)一到某一單位8.多選題(分值:3分)數(shù)據(jù)歸約的策略包括以下幾種(ABCD)。A.數(shù)據(jù)立方體聚集B.屬性子集選擇 C.數(shù)據(jù)壓縮 D.數(shù)值歸約9.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論