




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章
數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理大數(shù)據(jù)概論及應(yīng)用實(shí)踐IntroductiontoBigDataandApplicationPractice第3章
數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理隨著云計(jì)算、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)、5G移動(dòng)通信等新一代信息技術(shù)的發(fā)展和應(yīng)用,產(chǎn)生了海量的數(shù)據(jù)。這些數(shù)據(jù)增長(zhǎng)速度迅速,來源廣泛,類型多樣,且有時(shí)效性,如通過網(wǎng)站、政務(wù)系統(tǒng)、辦公系統(tǒng)、微博等應(yīng)用系統(tǒng)收集的數(shù)據(jù),抖音小視頻、快手、視頻號(hào)等收集的音頻視頻數(shù)據(jù),監(jiān)控?cái)z像頭,傳感器等技術(shù)收集的圖像,微信、Email、購(gòu)物網(wǎng)站等收集的文本、日志相關(guān)的數(shù)據(jù)。對(duì)于這些來源廣泛且類型多樣的數(shù)據(jù),數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)、語(yǔ)義模糊等問題是不可避免的,通常是無法直接使用,實(shí)現(xiàn)數(shù)據(jù)的最大價(jià)值,這就必須要采取相應(yīng)的措施解決這些問題,通過對(duì)數(shù)據(jù)做必要的清洗、集成、轉(zhuǎn)換等被稱之為“數(shù)據(jù)預(yù)處理”的過程,是對(duì)數(shù)據(jù)進(jìn)行分析的第一步,也是為后續(xù)的數(shù)據(jù)挖掘和分析的奠定良好基礎(chǔ)。概述3.1數(shù)據(jù)采集3.2數(shù)據(jù)預(yù)處理3.3拓展實(shí)訓(xùn)3.4目錄CONTENTS本章小結(jié)3.5習(xí)題3.6
數(shù)據(jù)采集(DataAcquisition,DAQ)也稱為數(shù)據(jù)獲取或數(shù)據(jù)收集,是指利用不同的設(shè)備和技術(shù)通過一系列的流程自動(dòng)采集數(shù)據(jù),并傳到存儲(chǔ)空間中進(jìn)行分析、處理的過程。概
述PART013.1
概述在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的價(jià)值在各個(gè)行業(yè)的推廣和應(yīng)用過程中已經(jīng)充分顯現(xiàn),數(shù)據(jù)也成為至關(guān)重要的資產(chǎn)。如何有效的獲取這些規(guī)模巨大、產(chǎn)生速度迅速、類型多的數(shù)據(jù),即數(shù)據(jù)采集,是進(jìn)行數(shù)據(jù)挖掘和分析的重要前提。數(shù)據(jù)采集(DataAcquisition,DAQ)也稱為數(shù)據(jù)獲取或數(shù)據(jù)收集,是指利用不同的設(shè)備和技術(shù)通過一系列的流程自動(dòng)采集數(shù)據(jù),并傳到存儲(chǔ)空間中進(jìn)行分析、處理的過程。在很多情況下,即使采集的數(shù)據(jù)得到了有效的集成,也難以直接使用,主要有兩大原因,一是數(shù)據(jù)源數(shù)據(jù)的單位、類型、格式和應(yīng)用要求等難以統(tǒng)一;二是在數(shù)據(jù)采集、傳輸、集成等一系列的步驟中難免產(chǎn)生錯(cuò)誤。因此,在應(yīng)用之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,可以通過數(shù)據(jù)清洗、類型轉(zhuǎn)換、數(shù)據(jù)脫敏等操作,達(dá)到數(shù)據(jù)完整性、一致性、有效性的管理。
本節(jié)主要介紹數(shù)據(jù)采集的概念、數(shù)據(jù)采集的原則、數(shù)據(jù)采集的數(shù)據(jù)來源和數(shù)據(jù)采集的方法。數(shù)據(jù)采集PART023.2.1
數(shù)據(jù)采集的概述數(shù)據(jù)采集,是大數(shù)據(jù)分析的前奏,是數(shù)據(jù)價(jià)值挖掘和分析的重要一環(huán),數(shù)據(jù)價(jià)值的挖掘和分析都是建立在數(shù)據(jù)采集的基礎(chǔ)之上。不同的數(shù)據(jù)類型在采集時(shí)既有聯(lián)系又有區(qū)別,如表3-1所示。3.2.2數(shù)據(jù)采集的原則數(shù)據(jù)采集的原則如下:大。數(shù)據(jù)量越大其分析的價(jià)值就越大。數(shù)據(jù)量越大,越能提供準(zhǔn)確的統(tǒng)計(jì)結(jié)果,減少數(shù)據(jù)量少引起的偏差,從而幫助人們發(fā)現(xiàn)更多的趨勢(shì)和模式,提高預(yù)測(cè)和預(yù)測(cè)精度,從而能夠該曬決策和規(guī)劃,為進(jìn)一步的決策提供有利的基礎(chǔ)數(shù)據(jù)支撐。全。數(shù)據(jù)信息的缺失、不全面很可能導(dǎo)致不能得出正確的結(jié)果。比如對(duì)某本書籍銷量的分析,我們盡可能地收集信息,比如那些人群購(gòu)買的,通過什么渠道購(gòu)買的,所屬地區(qū)等多種類型的信息,足夠多的數(shù)據(jù)面來支撐分析需求,能夠精準(zhǔn)的獲某一類型的信息,能夠進(jìn)行精準(zhǔn)分析,制定進(jìn)一步的營(yíng)銷策略。3.2.2數(shù)據(jù)采集的原則數(shù)據(jù)采集的原則如下:細(xì)。數(shù)據(jù)更重要的是能滿足分析需求,收集充分全面的屬性、維度、指標(biāo),使存儲(chǔ)的數(shù)據(jù)更高質(zhì)量,最終實(shí)現(xiàn)直通、高效的數(shù)據(jù)分析。準(zhǔn)。只有正確的信息和數(shù)據(jù)才能整理分析后得到正確的結(jié)果和結(jié)論。數(shù)據(jù)信息的正確性要求我們通過各種渠道獲取信息進(jìn)行比對(duì)。時(shí)。高效性和及時(shí)性。高效性是指在采集數(shù)據(jù)時(shí)一定要有明確的目標(biāo),帶著問題去收集數(shù)據(jù),使數(shù)據(jù)更加高效和針對(duì)性。同時(shí),采集數(shù)據(jù)的及時(shí)性,提高了數(shù)據(jù)應(yīng)用的及時(shí)性,能夠創(chuàng)造更大的價(jià)值。3.2.3數(shù)據(jù)采集的來源數(shù)據(jù)來源大致分為四類管理信息系統(tǒng)通常是指企事業(yè)單位、政府機(jī)關(guān)等組織內(nèi)部的業(yè)務(wù)平臺(tái),在業(yè)務(wù)活動(dòng)中會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)既包括終端用戶輸入的原始數(shù)據(jù),也包括系統(tǒng)二次加工處理產(chǎn)生的數(shù)據(jù),與企業(yè)的經(jīng)營(yíng)、管理密不可分,具有極高的潛在應(yīng)用價(jià)值,通常存儲(chǔ)于關(guān)系型數(shù)據(jù)庫(kù)中,多為結(jié)構(gòu)化數(shù)據(jù)。互聯(lián)網(wǎng)信息系統(tǒng)主要是指互聯(lián)網(wǎng)上的各種信息系統(tǒng)或網(wǎng)絡(luò)平臺(tái),例如電子商務(wù)系統(tǒng)(如淘寶商城、京東商城)、社交平臺(tái)(如新浪微博、微信)、搜索引擎(如百度)、自媒體系統(tǒng)(如抖音、快手)、電子政務(wù)平臺(tái)、在線醫(yī)療、在線教育以及各種POS終端、網(wǎng)絡(luò)支付系統(tǒng)等.3.2.3數(shù)據(jù)采集的來源數(shù)據(jù)來源大致分為四類物聯(lián)網(wǎng)信息系統(tǒng)主要是指通過傳感器設(shè)備或智能設(shè)備感知、監(jiān)控、樊噲、控制現(xiàn)實(shí)世界客觀事物的信息系統(tǒng),廣泛應(yīng)用于智能交通、現(xiàn)場(chǎng)指揮、行業(yè)生產(chǎn)等場(chǎng)合。與互聯(lián)網(wǎng)系統(tǒng)系統(tǒng)相比,物聯(lián)網(wǎng)信息系統(tǒng)收集到的數(shù)據(jù),具有如下特點(diǎn):數(shù)據(jù)規(guī)模更大、數(shù)據(jù)傳輸速率更快、數(shù)據(jù)類型更加多樣化??茖W(xué)研究信息系統(tǒng)主要是指科學(xué)大數(shù)據(jù),可以來自科研院所、個(gè)人觀察所得到的科學(xué)實(shí)驗(yàn)數(shù)據(jù)及傳感數(shù)據(jù)。3.2.4
數(shù)據(jù)采集的方法針對(duì)四種不同的數(shù)據(jù)源,相應(yīng)的采集方法也分為四類管理信息系統(tǒng)的數(shù)據(jù)采集方法管理信息系統(tǒng)的數(shù)據(jù)通常使用關(guān)系型數(shù)據(jù)庫(kù)MySQL、SQLServer和Oracle等來存儲(chǔ)業(yè)務(wù)數(shù)據(jù),即數(shù)據(jù)以單行記錄或多行記錄的形式被寫入到數(shù)據(jù)庫(kù)中。隨著數(shù)據(jù)源源不斷地增加,經(jīng)過長(zhǎng)年累月的累積,積累了海量又珍貴的數(shù)據(jù)??梢越柚鶨TL工具,把分散在不同位置的系統(tǒng)數(shù)據(jù),通過抽取、轉(zhuǎn)換、加載到數(shù)據(jù)倉(cāng)庫(kù)中,再由特定的處理分析系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行后續(xù)的分析,滿足各種決策分析需求。對(duì)于產(chǎn)生的數(shù)據(jù)比如客戶數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)等保密性要求極高的數(shù)據(jù),一般會(huì)與專業(yè)的數(shù)據(jù)技術(shù)服務(wù)商合作,使用特定的系統(tǒng)接口等技術(shù)手段來保護(hù)數(shù)據(jù)的完整性和私密性。3.2.4
數(shù)據(jù)采集的方法針對(duì)四種不同的數(shù)據(jù)源,相應(yīng)的采集方法也分為四類互聯(lián)網(wǎng)信息系統(tǒng)的數(shù)據(jù)采集方法作為當(dāng)下大數(shù)據(jù)時(shí)代最大的數(shù)據(jù)來源之一,互聯(lián)網(wǎng)源源不斷地產(chǎn)生各種數(shù)據(jù),比如網(wǎng)上商城產(chǎn)生的數(shù)據(jù),像商品數(shù)據(jù)、訂單數(shù)據(jù)、用戶反饋、瀏覽記錄等大量的信息,有文檔、音頻、視頻、圖片等多種類型,可以數(shù)據(jù)可以用于個(gè)性化推薦、營(yíng)銷策略制定等多方面的分析與預(yù)測(cè)?;ヂ?lián)網(wǎng)上的很多數(shù)據(jù)都是動(dòng)態(tài)產(chǎn)生的,實(shí)時(shí)性很強(qiáng),一般為非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)。目前主要的采集方法是通過網(wǎng)絡(luò)爬蟲(如Nutch、Scrapy等)或者是通過某些網(wǎng)上提供的公開的API(如百度、新浪微博),并根據(jù)用戶需求將某些數(shù)據(jù)屬性進(jìn)行抽取。而訪問日志等信息則可以使用系統(tǒng)日志的方法進(jìn)行采集。3.2.4
數(shù)據(jù)采集的方法針對(duì)四種不同的數(shù)據(jù)源,相應(yīng)的采集方法也分為四類網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動(dòng)抽取信息的程序或腳本,又成網(wǎng)絡(luò)蜘蛛或網(wǎng)絡(luò)機(jī)器人。通過網(wǎng)絡(luò)爬蟲采集方法傾向于獲取盡可能多的數(shù)據(jù),但是考慮到數(shù)據(jù)的效率和質(zhì)量,關(guān)鍵在于爬蟲策略,也就是說在網(wǎng)絡(luò)爬蟲過程中,采取何種策略能夠保證抽取到的內(nèi)容更全、速度更快、匹配度更高。常見的策略包括深度優(yōu)先策略、寬度優(yōu)先策略、反向鏈路書策略、大站優(yōu)先策略等。3.2.4
數(shù)據(jù)采集的方法針對(duì)四種不同的數(shù)據(jù)源,相應(yīng)的采集方法也分為四類API采集API定義了一個(gè)網(wǎng)站與另一個(gè)網(wǎng)站之間通信的標(biāo)準(zhǔn)語(yǔ)法,即便是這兩個(gè)網(wǎng)站的架構(gòu)不同或者是實(shí)現(xiàn)的語(yǔ)言不同。通常是網(wǎng)站的管理者自行編寫的一種程序接口。這類接口封裝了網(wǎng)站的核心算法,只通過簡(jiǎn)單調(diào)用即可實(shí)現(xiàn)對(duì)網(wǎng)站數(shù)據(jù)的請(qǐng)求,滿足使用者快速獲取網(wǎng)站的部分?jǐn)?shù)據(jù)。API采集技術(shù)很大程度上受限于平臺(tái)開發(fā)者,一般免費(fèi)提供API服務(wù)的網(wǎng)站中,通常都會(huì)限制采集時(shí)間和采集頻率,對(duì)于開放的免費(fèi)數(shù)據(jù)也因?yàn)閿?shù)據(jù)的安全性和私密性,不能完全放開,從而不能完全滿足用戶需求。3.2.4
數(shù)據(jù)采集的方法針對(duì)四種不同的數(shù)據(jù)源,相應(yīng)的采集方法也分為四類物聯(lián)網(wǎng)信息系統(tǒng)的數(shù)據(jù)采集方法物聯(lián)網(wǎng)信息系統(tǒng)的數(shù)據(jù)主要是通過傳感器進(jìn)行數(shù)據(jù)傳輸,把物理世界的信息轉(zhuǎn)化為可讀的數(shù)字信號(hào)以待出來。目前根據(jù)各行各業(yè)的特定應(yīng)用,大量的傳感器設(shè)備被廣泛部署,會(huì)周期性并持續(xù)地產(chǎn)生海量數(shù)據(jù)。在基于傳感器技術(shù)進(jìn)行采集的過程,涉及到眾多數(shù)據(jù)源的選取,同時(shí)由于受傳感器設(shè)備和通信傳輸系統(tǒng)的限制,采集到的數(shù)據(jù)類型差異很多、組織形式也多種多樣、量綱也差異很多,存在文本、圖片、音頻、視頻等多種不同的形式。3.2.4
數(shù)據(jù)采集的方法針對(duì)四種不同的數(shù)據(jù)源,相應(yīng)的采集方法也分為四類科學(xué)研究信息系統(tǒng)的數(shù)據(jù)采集方法科研數(shù)據(jù)因其特殊性,數(shù)據(jù)的采集方案都是經(jīng)過科研人員精心設(shè)計(jì)的,需要通過特定的儀器進(jìn)行采集并傳送到數(shù)據(jù)中心進(jìn)行處理。但是在不同科研領(lǐng)域,采用的方法也各不相同,比如輿情分析、用戶行為分析及個(gè)性化推薦、交通監(jiān)管等,可采用前面介紹的爬蟲技術(shù)結(jié)合數(shù)據(jù)感知層的通用感知設(shè)備完成數(shù)據(jù)采集;而在宇宙奧秘探索、基因組研究、量子等領(lǐng)域,數(shù)據(jù)是需要特定的以前,比如射電望遠(yuǎn)鏡、電子顯微鏡、LHC等。3.2.4
數(shù)據(jù)采集的方法針對(duì)四種不同的數(shù)據(jù)源,相應(yīng)的采集方法也分為四類其他數(shù)據(jù)采集方法系統(tǒng)日志采集方法。系統(tǒng)日志是由系統(tǒng)運(yùn)行產(chǎn)生,包含了系統(tǒng)的行為、狀態(tài)以及用戶和系統(tǒng)的交互。其含義是非常廣泛的,可以是感知層采集到的數(shù)據(jù)、計(jì)算機(jī)軟硬件系統(tǒng)運(yùn)行的記錄、網(wǎng)絡(luò)監(jiān)控的性能測(cè)量及流量管理等都屬于系統(tǒng)日志。在進(jìn)行系統(tǒng)日志設(shè)計(jì)時(shí),遵循以用戶/系統(tǒng)行為認(rèn)知的原則,需要根據(jù)應(yīng)用的要求選擇日志需要包含的內(nèi)容,并根據(jù)內(nèi)容的形式和應(yīng)用方法設(shè)計(jì)有效的存取格式。例如,對(duì)于通話記錄一類的需要頻繁查詢的海量日志倉(cāng)庫(kù),可以選擇數(shù)據(jù)庫(kù)而不是文本文件,確保高效的查詢。PART03數(shù)據(jù)預(yù)處理
大數(shù)據(jù)預(yù)處理,是指對(duì)采集到的海量數(shù)據(jù)進(jìn)行挖掘和分析處理前,需要先原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)集成及數(shù)據(jù)歸約等多項(xiàng)工作,從而提高數(shù)據(jù)質(zhì)量,盡可能滿足后續(xù)數(shù)據(jù)分析的目的,得出切實(shí)可行的結(jié)論,為客戶的應(yīng)用提供有利的支撐。3.3數(shù)據(jù)預(yù)處理大數(shù)據(jù)預(yù)處理,是指對(duì)采集到的海量數(shù)據(jù)進(jìn)行挖掘和分析處理前,需要先原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)集成及數(shù)據(jù)歸約等多項(xiàng)工作,從而提高數(shù)據(jù)質(zhì)量,盡可能滿足后續(xù)數(shù)據(jù)分析的目的,得出切實(shí)可行的結(jié)論,為客戶的應(yīng)用提供有利的支撐。大數(shù)據(jù)預(yù)處理的流程如圖3-3所示。圖3-3大數(shù)據(jù)預(yù)處理流程圖3.3.1數(shù)據(jù)清洗數(shù)據(jù)質(zhì)量
高質(zhì)量的數(shù)據(jù)應(yīng)該具備四大要素:完整性、一致性、準(zhǔn)確性和及時(shí)性。數(shù)據(jù)的完整性主要指數(shù)據(jù)記錄和數(shù)據(jù)信息是否完整,是否存在缺失的情況。數(shù)據(jù)的一致性主要包括數(shù)據(jù)記錄的規(guī)范性和數(shù)據(jù)邏輯的一致性。數(shù)據(jù)記錄中準(zhǔn)確性通常是指數(shù)據(jù)具有不正確的字段活不符合要求的數(shù)值。數(shù)據(jù)從產(chǎn)生到可以采集有一定的時(shí)間要求,在數(shù)據(jù)的刷新、修改和提取等方面的快速響應(yīng),這也是保證數(shù)據(jù)質(zhì)量的一個(gè)重要方面。高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)應(yīng)用的基礎(chǔ)核心,必須把握以下幾點(diǎn):①制定規(guī)范的數(shù)據(jù)質(zhì)量度量標(biāo)準(zhǔn);②建立有效的數(shù)據(jù)質(zhì)量監(jiān)管體系;③建立完善的數(shù)據(jù)質(zhì)量管理制度。高質(zhì)量的數(shù)據(jù)離不開數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)分析、數(shù)據(jù)檢驗(yàn)及管理制度的綜合作用。3.3.1數(shù)據(jù)清洗數(shù)據(jù)清洗的內(nèi)容及方法
對(duì)于采集到的“臟數(shù)據(jù)”,分析產(chǎn)生的原因和存在的形式,構(gòu)建數(shù)據(jù)清洗的模型和算法,利用對(duì)應(yīng)的技術(shù)手段進(jìn)行“清洗”把原始數(shù)據(jù)轉(zhuǎn)換成滿足數(shù)據(jù)分析或應(yīng)用要求的格式,從而提高數(shù)據(jù)的質(zhì)量。(1)不完整性處理
一般從三個(gè)方面進(jìn)行處理,即補(bǔ)充缺失值、直接刪除記錄和重新采集。(2)不一致性處理可以利用數(shù)據(jù)自身與外部的聯(lián)系手動(dòng)進(jìn)行修車,或者通過已知屬性間的依賴關(guān)系查找違反函數(shù)依賴的值,或使用知識(shí)工程檢測(cè)違反規(guī)則的數(shù)據(jù)。不完整性處理
對(duì)于數(shù)據(jù)記錄出現(xiàn)缺失的情況,一般從三個(gè)方面進(jìn)行處理,即補(bǔ)充缺失值、直接刪除記錄和重新采集。①補(bǔ)充缺失值
人工補(bǔ)充
針對(duì)缺失值非常少的情況,可以根據(jù)業(yè)務(wù)知識(shí)或經(jīng)驗(yàn)推測(cè)進(jìn)行人工補(bǔ)充,但是在大數(shù)據(jù)集中通常是不可行的。
使用全局常量補(bǔ)充
將缺失的字段值用同一個(gè)常數(shù)、缺省值、最大值等進(jìn)行替換,但是這種方式容易誤導(dǎo)數(shù)據(jù)分析程序出現(xiàn)誤差,甚至是錯(cuò)誤的結(jié)論。該方法雖然簡(jiǎn)單,但是可用性太差,不推薦使用。3.3.1數(shù)據(jù)清洗不完整性處理①補(bǔ)充缺失值
統(tǒng)計(jì)補(bǔ)充法統(tǒng)計(jì)補(bǔ)充法有兩種:均值不變法和標(biāo)準(zhǔn)差不變法。
均值不變法是指使用該字段的一般水平的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行補(bǔ)充,比如均值、中位數(shù)或眾數(shù)等。在此情況下,補(bǔ)充后的數(shù)據(jù)均值保持不變,從而降低了填充數(shù)據(jù)對(duì)數(shù)據(jù)整體特征的影響。例如,某一門票的平均價(jià)格是35,則可以使用這個(gè)數(shù)值來補(bǔ)充價(jià)格所有缺失的記錄。
標(biāo)準(zhǔn)不變法是指在確保補(bǔ)充前后字段的標(biāo)準(zhǔn)差保持不變的前提下,對(duì)缺失值進(jìn)行補(bǔ)充。其數(shù)值是由字段的所有非缺失值計(jì)算而得。3.3.1數(shù)據(jù)清洗不完整性處理①補(bǔ)充缺失值
預(yù)測(cè)估算法
預(yù)測(cè)估算法是指有些字段的值可以根據(jù)其他同類別沒有缺失值的字段進(jìn)行推斷,從而得出該字段最大可能的數(shù)值并進(jìn)行填充。比如可以用身份證號(hào)碼推算出年齡,或者使用回歸、決策樹歸納、貝葉斯推理、最近鄰方法、神經(jīng)網(wǎng)絡(luò)等方法推斷出最有可能的值,是目前主流的用于補(bǔ)充缺失值的方法。3.3.1數(shù)據(jù)清洗不完整性處理②刪除缺失值當(dāng)數(shù)據(jù)記錄數(shù)量很多并且出現(xiàn)缺失值的數(shù)據(jù)記錄再整個(gè)數(shù)據(jù)中的占比比較小時(shí),或者字段的缺失率高但字段不重要,或者字段雖然重要但沒有有效辦法進(jìn)行補(bǔ)充,都可以直接進(jìn)行刪除。這種方法盡管操作起來比較便捷,但是可能會(huì)改變數(shù)據(jù)的整體分布,對(duì)于只缺失某個(gè)字段就忽略其他的所有字段,也是對(duì)數(shù)據(jù)資源的一種浪費(fèi),因此進(jìn)行此類處理時(shí)需要慎重。③重新采集對(duì)于某些字段非常重要且缺失率又比較高,又沒有有效的方法進(jìn)補(bǔ)充時(shí),可以嘗試通過其他的渠道重新采集獲取所需的信息。3.3.1數(shù)據(jù)清洗不一致性處理
分析不一致數(shù)據(jù)產(chǎn)生的根本原因,通過和原始記錄對(duì)比進(jìn)行更正數(shù)據(jù)輸入的錯(cuò)誤。對(duì)于數(shù)據(jù)記錄所有屬性值完全相同的,則保留一個(gè)數(shù)據(jù)對(duì)象,刪除其他重復(fù)數(shù)據(jù);對(duì)于相似但屬性值不完全相同的數(shù)據(jù)記錄,則先確定是否代表同一對(duì)象,若是,則進(jìn)行數(shù)據(jù)歸并,出來不一致的值,否則需要確定相似數(shù)據(jù)對(duì)象的區(qū)分屬性,避免意外的合并,比如同盟同性的數(shù)據(jù)記錄,需要通過身份證號(hào)碼來加以區(qū)分。此外,對(duì)于不一致性數(shù)據(jù)情況的處理,可以利用數(shù)據(jù)自身與外部的聯(lián)系手動(dòng)進(jìn)行修車,或者通過已知屬性間的依賴關(guān)系查找違反函數(shù)依賴的值,或使用知識(shí)工程檢測(cè)違反規(guī)則的數(shù)據(jù)。3.3.1數(shù)據(jù)清洗不準(zhǔn)確性處理不準(zhǔn)確性數(shù)據(jù)產(chǎn)生的原因有很多,針對(duì)不同的原因采取對(duì)應(yīng)的策略,我們可以采用不完整性和不一致性的某些處理方法。這里我們重點(diǎn)介紹對(duì)噪聲數(shù)據(jù)的預(yù)處理。噪聲數(shù)據(jù)是由于隨機(jī)錯(cuò)誤或者偏差等多種原因,造成的錯(cuò)誤或異常的數(shù)據(jù)。對(duì)于這些噪聲數(shù)據(jù)需要進(jìn)行平滑處理,常用的方法有分箱法、回歸法、聚類以及人機(jī)交互檢測(cè)法等。①分箱法
分箱法是通過考察鄰近的數(shù)據(jù)來對(duì)有序數(shù)據(jù)進(jìn)行平滑處理的方法。它將有序的數(shù)據(jù)等寬或等深分配到一系列箱中,然后考察箱子中相鄰數(shù)據(jù)的值進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的平滑。
通常來說,寬度越大,平滑效果越明顯。3.3.1數(shù)據(jù)清洗不準(zhǔn)確性處理
②回歸法
回歸法是采用構(gòu)造擬合函數(shù),利用一個(gè)(或一組)變量值來預(yù)測(cè)另一個(gè)變量值,根據(jù)實(shí)際值和預(yù)測(cè)值的偏離情況識(shí)別出噪聲數(shù)據(jù),然后將得到的預(yù)測(cè)值替換數(shù)據(jù)中引起噪聲的屬性值,從而實(shí)現(xiàn)噪聲數(shù)據(jù)的平滑處理。通常使用線性回歸法和非線性回歸法。其中,線性回歸是旨在找出擬合兩個(gè)變量的最佳直線,使得當(dāng)已知一個(gè)變量的值時(shí),能夠預(yù)測(cè)出另外一個(gè)變量的值。多線性回歸涉及兩個(gè)以上的變量,是線性回歸的擴(kuò)展,它將數(shù)據(jù)擬合到一個(gè)多維面上。3.3.1數(shù)據(jù)清洗不準(zhǔn)確性處理
③人機(jī)交互檢測(cè)法
人機(jī)交互檢測(cè)法是使用人與計(jì)算機(jī)交互檢查的方法來幫助發(fā)現(xiàn)噪聲數(shù)據(jù)。利用專分析人員的背景知識(shí)和實(shí)踐經(jīng)驗(yàn),進(jìn)行人工篩選或制作規(guī)則集,再由計(jì)算機(jī)自動(dòng)處理,從而檢測(cè)出不符合也就邏輯的噪聲數(shù)據(jù)。當(dāng)規(guī)則集設(shè)計(jì)合理,比較貼近數(shù)據(jù)集合的應(yīng)用領(lǐng)域需求時(shí),這種方法有助于提高數(shù)據(jù)篩選的準(zhǔn)確率。3.3.1數(shù)據(jù)清洗3.3.1數(shù)據(jù)清洗數(shù)據(jù)清洗的注意事項(xiàng)
根據(jù)對(duì)數(shù)據(jù)質(zhì)量的要求和數(shù)據(jù)清洗的內(nèi)容及方法,在進(jìn)行數(shù)據(jù)清洗時(shí),需要注意以下事項(xiàng)。①數(shù)據(jù)清洗時(shí)可優(yōu)先進(jìn)行缺失值、異常值和數(shù)據(jù)類型轉(zhuǎn)換的操作,最后進(jìn)行重復(fù)值處理。②在對(duì)缺失值、異常值進(jìn)行處理時(shí),要根據(jù)業(yè)務(wù)需求選擇恰當(dāng)?shù)奶幚矸椒ā"墼跀?shù)據(jù)清洗之前,最重要的是了解數(shù)據(jù)存儲(chǔ)表的結(jié)構(gòu)和發(fā)現(xiàn)需要處理的值,才能將數(shù)據(jù)清洗徹底。④數(shù)據(jù)量的大小也直接影響著處理方式,根據(jù)數(shù)據(jù)對(duì)結(jié)果的影響,選擇合適的處理方法。⑤對(duì)于直接導(dǎo)入數(shù)據(jù)表的數(shù)據(jù),一般需要對(duì)所有列依次地進(jìn)行清洗,來保證數(shù)據(jù)處理的徹底。3.3.1數(shù)據(jù)清洗數(shù)據(jù)清洗的過程
不管采用那種數(shù)據(jù)清洗的方法,數(shù)據(jù)清洗的過程大概由六個(gè)基本步驟組成。
如右圖所示。3.3.2數(shù)據(jù)集成基本概念
數(shù)據(jù)集成是將來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)按照一定的規(guī)則整合成起來進(jìn)行統(tǒng)一存儲(chǔ),維護(hù)數(shù)據(jù)源整體的上數(shù)據(jù)一致,以便提升挖掘的速度和準(zhǔn)確度。數(shù)據(jù)集成時(shí),按照不同需求在不同數(shù)據(jù)源與集成目標(biāo)之間,通過統(tǒng)一的數(shù)據(jù)源訪問接口,執(zhí)行用戶對(duì)數(shù)據(jù)源的訪問請(qǐng)求,并根據(jù)一定的規(guī)則進(jìn)行匹配,完成完成數(shù)據(jù)的轉(zhuǎn)換和整合,還需要消除數(shù)據(jù)冗余,并針對(duì)不同特征或數(shù)據(jù)間的關(guān)系進(jìn)行關(guān)聯(lián)性分析。
如右圖所示需要解決的問題
在數(shù)據(jù)集成過程中,數(shù)據(jù)的轉(zhuǎn)換、移動(dòng)等都不可避免,同時(shí)由于技術(shù)的不斷更新?lián)Q代,在集成過程中難免出現(xiàn)一些問題,主要集中在以下幾個(gè)方面:
(1)異構(gòu)性
異構(gòu)性包括模式異構(gòu)性和系統(tǒng)異構(gòu)性。模式異構(gòu)是指在數(shù)據(jù)源在存儲(chǔ)模式上的差異,比如關(guān)系模式、對(duì)象模式、文檔模式等。異構(gòu)模式是指數(shù)據(jù)源所依賴的應(yīng)用系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)以及操作系統(tǒng)之間的差異。因此,在進(jìn)行數(shù)據(jù)集成時(shí)需要為異構(gòu)數(shù)據(jù)提供統(tǒng)一的標(biāo)識(shí)、存儲(chǔ)和管理,屏蔽它們之間的差異,提供統(tǒng)一的訪問模式。3.3.2數(shù)據(jù)集成需要解決的問題
(2)一致性和冗余
數(shù)據(jù)的一致性設(shè)計(jì)沖突數(shù)據(jù)的識(shí)別和處理,即判斷來自不同數(shù)據(jù)源的實(shí)體是否為同一實(shí)體。
冗余是數(shù)據(jù)集成中另一個(gè)常見問題。在數(shù)據(jù)集中,某個(gè)屬性(如產(chǎn)品總價(jià))可能會(huì)由另一個(gè)屬性或多個(gè)屬性(產(chǎn)品單價(jià)和銷售數(shù)量)組成,這就導(dǎo)致數(shù)據(jù)挖掘需要對(duì)相同的信息進(jìn)行重復(fù)處理,從而降低了工作效率。對(duì)于冗余問題,可以利用相關(guān)性分析方法來進(jìn)行檢測(cè)。3.3.2數(shù)據(jù)集成需要解決的問題
(3)數(shù)據(jù)的轉(zhuǎn)換
根據(jù)不同的集成目標(biāo)的需求,對(duì)于不同類型的數(shù)據(jù),制定轉(zhuǎn)換規(guī)則,完成數(shù)據(jù)的整合、轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)格式。在數(shù)據(jù)集成過程中,元數(shù)據(jù)和主數(shù)據(jù)是非常重要的,通常需要主數(shù)據(jù)引用作為元數(shù)據(jù)標(biāo)簽附加到非結(jié)構(gòu)化數(shù)據(jù)上,在此基礎(chǔ)上完成多種異構(gòu)數(shù)據(jù)源的集成。例如,某段視頻可能包含某家企業(yè)的信息(主數(shù)據(jù)),通過將其與企業(yè)商標(biāo)、名稱等圖像進(jìn)行匹配,增設(shè)標(biāo)簽(元數(shù)據(jù))從而與企業(yè)信息建立關(guān)聯(lián)。3.3.2數(shù)據(jù)集成需要解決的問題
(4)數(shù)據(jù)的遷移及協(xié)調(diào)更新
隨著用戶業(yè)務(wù)的更新,當(dāng)新的應(yīng)用系統(tǒng)替代原有的應(yīng)用系統(tǒng)時(shí),根據(jù)目標(biāo)應(yīng)用系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)需求,必須將原有應(yīng)用系統(tǒng)的業(yè)務(wù)數(shù)據(jù)進(jìn)行轉(zhuǎn)換并遷移到新的應(yīng)用系統(tǒng)。處于統(tǒng)一數(shù)據(jù)集成環(huán)境中的多個(gè)應(yīng)用系統(tǒng),當(dāng)其中某些應(yīng)用系統(tǒng)的數(shù)據(jù)發(fā)生更新時(shí),其他的應(yīng)用系統(tǒng)需要及時(shí)被通知,以便及時(shí)的完成必要的數(shù)據(jù)移動(dòng)。3.3.2數(shù)據(jù)集成3.3.3數(shù)據(jù)轉(zhuǎn)換通過數(shù)據(jù)清洗,原始數(shù)據(jù)中的“臟數(shù)據(jù)”被逐一清理;通過數(shù)據(jù)集成,解決了不同來源數(shù)據(jù)不一致的問題;而數(shù)據(jù)轉(zhuǎn)換,是將待處理的數(shù)據(jù)進(jìn)行轉(zhuǎn)換或歸并,構(gòu)成一個(gè)適合數(shù)據(jù)挖掘的形式。
數(shù)據(jù)轉(zhuǎn)換的方法有很多,常見的包括數(shù)據(jù)平滑處理、數(shù)據(jù)聚集處理、數(shù)據(jù)泛化處理、數(shù)據(jù)規(guī)范化處理、屬性構(gòu)造、數(shù)據(jù)離散化處理等,通過線性或非線性的數(shù)據(jù)轉(zhuǎn)換方法講維數(shù)較高的數(shù)據(jù)壓縮成維數(shù)教授的數(shù)據(jù),從而減少不同數(shù)據(jù)源的原始數(shù)據(jù)之間的差異,進(jìn)而獲得高質(zhì)量的數(shù)據(jù),提高分析價(jià)值。3.3.3數(shù)據(jù)轉(zhuǎn)換1.數(shù)據(jù)平滑處理數(shù)據(jù)平滑處理主要是針對(duì)噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù)進(jìn)行的處理,也可以處理缺失數(shù)據(jù)和清洗臟數(shù)據(jù),提高數(shù)據(jù)的信噪比。具體方法包括分箱、回歸和聚類等,這些方法也常應(yīng)用于數(shù)據(jù)清洗。2.數(shù)據(jù)規(guī)范化處理數(shù)據(jù)規(guī)范化處理是數(shù)據(jù)轉(zhuǎn)換策略比較重要的一種方法。它將一個(gè)屬性取值范圍投射到一個(gè)特定范圍,以消除數(shù)值型屬性因大小不一而造成挖掘結(jié)果的偏差。規(guī)范化特別適用于分類算法,比如神經(jīng)網(wǎng)絡(luò)的分類算法和基于距離度量的分類算法。前者有助于確保學(xué)習(xí)結(jié)果的正確性,提高學(xué)習(xí)的效率。后者有助于消除因?qū)傩匀≈捣秶煌瑑涸敿?xì)挖掘結(jié)果的公正性的情況。3.3.4數(shù)據(jù)脫敏數(shù)據(jù)脫敏是在給定的規(guī)則、策略下對(duì)敏感數(shù)據(jù)進(jìn)行轉(zhuǎn)換、修改的技術(shù),它會(huì)根據(jù)數(shù)據(jù)保護(hù)規(guī)范和脫敏策略,通過對(duì)數(shù)據(jù)中的敏感信息實(shí)時(shí)自動(dòng)變形,實(shí)現(xiàn)對(duì)敏感信息的隱藏和保護(hù),最大程度上解決了敏感數(shù)據(jù)在非可信環(huán)境中使用的問題。比如在涉及客戶安全數(shù)據(jù)或商業(yè)性敏感數(shù)據(jù)的情況下,在不違反系統(tǒng)規(guī)則的條件下,需對(duì)身份證號(hào)、手機(jī)號(hào)、銀行卡號(hào)等進(jìn)行脫敏處理。數(shù)據(jù)脫敏不是必須的數(shù)據(jù)預(yù)處理的環(huán)節(jié),可以根據(jù)需求對(duì)數(shù)據(jù)進(jìn)行脫敏處理,也可以不進(jìn)行脫敏處理。1.數(shù)據(jù)脫敏原則數(shù)據(jù)脫敏不僅需要執(zhí)行“數(shù)據(jù)漂白”,抹去數(shù)據(jù)中的敏感內(nèi)容,同時(shí)需要保持原有的數(shù)據(jù)特征、業(yè)務(wù)規(guī)則和數(shù)據(jù)關(guān)聯(lián)性,保證進(jìn)行大數(shù)據(jù)分析時(shí)不會(huì)受到脫敏的影響,達(dá)成脫敏前后的數(shù)據(jù)一致性和有效性,具體如下:
(1)保持原有數(shù)據(jù)特征。數(shù)據(jù)脫敏前后必須保持原有數(shù)據(jù)特征。
(2)保持?jǐn)?shù)據(jù)之間的一致性。在不同業(yè)務(wù)中,數(shù)據(jù)和數(shù)據(jù)之間具有一定的關(guān)聯(lián)性。
(3)保持業(yè)務(wù)規(guī)則的關(guān)聯(lián)性。保持?jǐn)?shù)據(jù)業(yè)務(wù)規(guī)則的關(guān)聯(lián)性是指數(shù)據(jù)關(guān)聯(lián)性和業(yè)務(wù)語(yǔ)義等保持不變。(4)多次脫敏數(shù)據(jù)之間的數(shù)據(jù)一致性。保證數(shù)據(jù)的持續(xù)一致性和廣野業(yè)務(wù)的持續(xù)一致性。3.3.4數(shù)據(jù)脫敏2.數(shù)據(jù)脫敏方法數(shù)據(jù)脫敏方法包括以下幾種方法:(1)數(shù)據(jù)替換。用設(shè)置的固定虛構(gòu)值替換真值。(2)無效化。通過對(duì)數(shù)據(jù)值的截?cái)?、加密等方式?duì)敏感數(shù)據(jù)進(jìn)行脫敏處理,使其不再具有使用價(jià)值。數(shù)據(jù)無效化與數(shù)據(jù)替換所達(dá)成的效果基本類似。(3)隨機(jī)化。采用隨機(jī)數(shù)據(jù)值代替真值,保持替換值的隨機(jī)性以模擬樣本的真實(shí)性。(4)偏移和取整。通過隨機(jī)移位改變數(shù)據(jù)值,偏移取整在保持了數(shù)據(jù)的安全性的同時(shí),也最大程度上保證了數(shù)據(jù)的真實(shí)性。(5)掩碼屏蔽。掩碼屏蔽是針對(duì)賬戶類數(shù)據(jù)的部分信息進(jìn)行脫敏的有利方法,(6)靈活編碼。對(duì)于需要特殊脫敏規(guī)則時(shí),可使用靈活編碼的方法。3.3.4數(shù)據(jù)脫敏
企業(yè)員工360度信息整合案例拓展實(shí)訓(xùn)PART04企業(yè)員工360度信息整合案例
案例介紹:A公司是一家創(chuàng)新性原料型生產(chǎn)企業(yè),成立于2001年,由于A公司報(bào)銷、人力、評(píng)優(yōu)等系統(tǒng)之間沒有打通,員工入職后需要在各信息系統(tǒng)中填寫信息。管理層決定由人力資源部牽頭實(shí)現(xiàn)各系統(tǒng)間信息聯(lián)通,建設(shè)員工全方位信息數(shù)倉(cāng)作為公司對(duì)人才管理的基本資料,用以完善員工發(fā)展制度、晉升機(jī)制、獎(jiǎng)勵(lì)機(jī)制、招聘機(jī)制等制度,為員工制定合理的成長(zhǎng)計(jì)劃和培養(yǎng)計(jì)劃。3.4
拓展實(shí)訓(xùn)(一)案例實(shí)驗(yàn)步驟一(數(shù)據(jù)采集)(1)創(chuàng)建模型參照表實(shí)3-1基礎(chǔ)信息表,在DMP“【數(shù)據(jù)加工廠】-【設(shè)計(jì)區(qū)】-【工廠分層】-【ODS操作數(shù)據(jù)】”路徑下新建主題域和主題,通過“創(chuàng)建自定義模型(全部字段需要手動(dòng)定義)”的方式創(chuàng)建指定名稱的表。打開數(shù)據(jù)管理平臺(tái),登錄浪潮數(shù)據(jù)管理平臺(tái)軟件。執(zhí)行【數(shù)據(jù)加工廠】-【設(shè)計(jì)區(qū)】-【工廠分層】-【ODS操作數(shù)據(jù)】。依次點(diǎn)擊右鍵順序創(chuàng)建“新建ODS”、“新建主題域”、“新建主題”。主題創(chuàng)建后,點(diǎn)擊“維表”模塊,點(diǎn)擊“添加維表”在彈出的“請(qǐng)選擇一種創(chuàng)建方式”窗口中,選擇“創(chuàng)建自定義維表”。(2)數(shù)據(jù)抽取參照表實(shí)3-3原始路徑,在DMP“【數(shù)據(jù)加工廠】-【設(shè)計(jì)區(qū)】-【工廠分層】-【ODS操作數(shù)據(jù)】-【ETL轉(zhuǎn)換】”路徑下創(chuàng)建指定名稱的ETL轉(zhuǎn)換。3.4
拓展實(shí)訓(xùn)【操作步驟】第一步,根據(jù)表實(shí)3-3信息新建分組。依次執(zhí)行【數(shù)據(jù)加工廠】-【設(shè)計(jì)區(qū)】-【工廠分層】-【ODS操作數(shù)據(jù)】,選中新建的“編號(hào)+姓名”的ODS層,右鍵點(diǎn)擊“新建ETL轉(zhuǎn)換節(jié)點(diǎn)”。在新建的ETL轉(zhuǎn)換節(jié)點(diǎn)下,右鍵點(diǎn)擊“新建分組”,填寫信息保存成功,如圖實(shí)3-5、圖實(shí)3-6所示。第二步,右鍵點(diǎn)擊“新建ETL轉(zhuǎn)換”,根據(jù)表實(shí)3-4填寫信息,選擇組件保存成功,如圖實(shí)3-7所示。第三步,點(diǎn)擊“運(yùn)行”,運(yùn)行成功,如圖實(shí)3-8所示。第四步,選中創(chuàng)建的維表,查看抽取的結(jié)果,如圖實(shí)3-9、圖實(shí)3-10所示。3.4
拓展實(shí)訓(xùn)(二)案例實(shí)驗(yàn)步驟二(數(shù)據(jù)處理)(1)創(chuàng)建數(shù)據(jù)模型
參照表實(shí)3-6,在DMP“【數(shù)據(jù)加工廠】-【設(shè)計(jì)區(qū)】-【工廠分層】【DW數(shù)據(jù)倉(cāng)庫(kù)】”路徑下主題,通過“創(chuàng)建自定義模型(全部字段需要手動(dòng)定義)”方式創(chuàng)建指定名稱的模型。【操作步驟】第一步,執(zhí)行【數(shù)據(jù)加工廠】-【數(shù)據(jù)加工廠】-【設(shè)計(jì)區(qū)】-【工廠分層】-【DW數(shù)據(jù)倉(cāng)庫(kù)】,選中DW數(shù)據(jù)倉(cāng)庫(kù),右鍵點(diǎn)擊“新建主題域”,如圖實(shí)3-11所示。第二步,選中第一步新建的主題域,右擊“新建主題”,填寫信息保存成功,如圖實(shí)3-12所示。第三步,點(diǎn)擊“模型管理”模塊,點(diǎn)擊“添加模型”,在彈出的“請(qǐng)選擇一種創(chuàng)建方式”窗口選擇“創(chuàng)建自定義模型(全部字段需要手動(dòng)定義)”,如圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中醫(yī)藥賦能社區(qū)健康:2025年服務(wù)模式創(chuàng)新研究報(bào)告
- 關(guān)于成立鋰電新材料公司可行性研究報(bào)告(范文模板)
- 2025年綠色消費(fèi)理念傳播與消費(fèi)行為引導(dǎo)在綠色環(huán)保技術(shù)研發(fā)行業(yè)的應(yīng)用報(bào)告
- 房建練習(xí)測(cè)試卷
- 建筑行業(yè)農(nóng)民工權(quán)益保障與綠色用工模式發(fā)展研究報(bào)告
- 交通運(yùn)輸行業(yè)人才需求特點(diǎn)與多元化培養(yǎng)策略:2025年研究報(bào)告
- 出口信用保險(xiǎn)擔(dān)保服務(wù)行業(yè)深度調(diào)研及發(fā)展項(xiàng)目商業(yè)計(jì)劃書
- 精細(xì)化學(xué)品自動(dòng)化包裝行業(yè)跨境出海項(xiàng)目商業(yè)計(jì)劃書
- 高精度地質(zhì)儀器培訓(xùn)服務(wù)企業(yè)制定與實(shí)施新質(zhì)生產(chǎn)力項(xiàng)目商業(yè)計(jì)劃書
- 移動(dòng)支付用戶增長(zhǎng)行業(yè)跨境出海項(xiàng)目商業(yè)計(jì)劃書
- 兒童發(fā)展問題的咨詢與輔導(dǎo)-案例1-5-國(guó)開-參考資料
- 安全生產(chǎn)法律法規(guī)匯編(2025版)
- 【MOOC】供電技術(shù)-常州工學(xué)院 中國(guó)大學(xué)慕課MOOC答案
- GB/T 23444-2024金屬及金屬?gòu)?fù)合材料吊頂板
- 2024年重慶市中考化學(xué)試題(A卷)含答案
- (正式版)QB∕T 8049-2024 家用和類似用途微壓富氧艙
- DIN1783厚度在0.35mm以上冷軋的鋁及鋁塑性合金帶材和板材、尺寸
- 低風(fēng)險(xiǎn)FOF產(chǎn)品方案設(shè)計(jì)目標(biāo)最大回撤3%以內(nèi)的投資策略
- 煙氣凈化輸送風(fēng)管防腐分項(xiàng)工程質(zhì)量檢驗(yàn)評(píng)定表
- 河海大學(xué)論文匯報(bào)答辯通用ppt模板
- 班隊(duì)列程序及評(píng)分標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論