大數(shù)據(jù)營銷 課件 第3、4章 營銷大數(shù)據(jù)采集及預(yù)處理、營銷大數(shù)據(jù)分析_第1頁
大數(shù)據(jù)營銷 課件 第3、4章 營銷大數(shù)據(jù)采集及預(yù)處理、營銷大數(shù)據(jù)分析_第2頁
大數(shù)據(jù)營銷 課件 第3、4章 營銷大數(shù)據(jù)采集及預(yù)處理、營銷大數(shù)據(jù)分析_第3頁
大數(shù)據(jù)營銷 課件 第3、4章 營銷大數(shù)據(jù)采集及預(yù)處理、營銷大數(shù)據(jù)分析_第4頁
大數(shù)據(jù)營銷 課件 第3、4章 營銷大數(shù)據(jù)采集及預(yù)處理、營銷大數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第3章

營銷大數(shù)據(jù)采集及預(yù)處理本章內(nèi)容

第1節(jié)

數(shù)據(jù)采集

第2節(jié)

數(shù)據(jù)預(yù)處理學(xué)習(xí)目標(biāo)

了解大數(shù)據(jù)的類型和數(shù)據(jù)來源

了解數(shù)據(jù)采集過程,培育正確的信息隱私觀

了解大數(shù)據(jù)采集方法

掌握數(shù)據(jù)預(yù)處理的方法,以及每種方法對應(yīng)處理的問題類型導(dǎo)入案例

喜茶:“私域流量”時代的數(shù)字化奶茶2020年3月初小程序下單比2月同期增長774%,創(chuàng)下了線上銷售新高。這一切,主要歸功于“數(shù)字化”與“私域流量”。在用戶分析上,喜茶利用會員數(shù)據(jù)可以進行精準(zhǔn)的用戶喜好評估。挖掘出用戶的細(xì)分需求,就能獲取產(chǎn)品研發(fā)的靈感,推出更貼近用戶的獨特的新品。通過自動化推薦,喜茶讓營銷更個性化和定制化。自動化的千人千面營銷,不僅可靈活控制庫存,還能有效提高銷量,提升用戶的使用體驗,第一時間把需要的信息與產(chǎn)品呈現(xiàn)在用戶面前。喜茶利用大數(shù)據(jù)為創(chuàng)意營銷策略提供方向性指導(dǎo),不斷實踐著跨界聯(lián)名、社區(qū)活動等新鮮玩法。這背后,其實也依靠會員系統(tǒng)數(shù)據(jù)的支撐。本章知識結(jié)構(gòu)數(shù)據(jù)類型數(shù)據(jù)來源數(shù)據(jù)預(yù)處理營銷數(shù)據(jù)采集及預(yù)處理數(shù)據(jù)采集方法結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)搜索引擎、電子商務(wù)平臺、社交媒體平臺系統(tǒng)日志、感知設(shè)備、網(wǎng)絡(luò)爬蟲、市場調(diào)查數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題一、數(shù)據(jù)類型第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)是指關(guān)系模型數(shù)據(jù),即以關(guān)系數(shù)據(jù)庫形式管理的數(shù)據(jù),可計算、可查詢、可定義。結(jié)構(gòu)化數(shù)據(jù)能夠形式化存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來表示,它被歸類為定量數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不便于用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),在技術(shù)上比結(jié)構(gòu)化信息更難標(biāo)準(zhǔn)化和理解。半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)數(shù)據(jù)之間的一種結(jié)構(gòu)化數(shù)據(jù)形式。因其比較特殊,所以單獨列出來,但本質(zhì)還是結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù)。數(shù)據(jù)三大類型數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題二、數(shù)據(jù)來源第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集數(shù)據(jù)來源

搜索引擎搜索數(shù)據(jù)和網(wǎng)站的點擊瀏覽數(shù)據(jù)來源于搜索引擎,搜索平臺擁有龐大的用戶行為數(shù)據(jù)。利用點擊和瀏覽數(shù)據(jù)對消費者進行分析,可以找到用戶的關(guān)注點、興趣點,利用這些信息,企業(yè)可以對用戶進行個性化推送,精準(zhǔn)營銷,極大提高了廣告的效率。電子商務(wù)平臺商品的搜索數(shù)據(jù)、瀏覽數(shù)據(jù)、交易數(shù)據(jù)、評價數(shù)據(jù)以及對應(yīng)的用戶數(shù)據(jù)來源于電子商務(wù)平臺。通過對商業(yè)大數(shù)據(jù)的分析,能夠更直接地了解消費者的動態(tài)。通過用戶的點評數(shù)據(jù),企業(yè)能夠分析出用戶滿意或者不滿意的地方,這些因素就是企業(yè)存在的優(yōu)勢和劣勢。收集、分析用戶的點評數(shù)據(jù)還有一個重要之處就是傾聽用戶的意見、了解用戶的真實需求。半結(jié)構(gòu)化數(shù)據(jù)用戶屬性標(biāo)簽、用戶生成內(nèi)容(UGC)、用戶間社交網(wǎng)絡(luò)數(shù)據(jù)來源于社交媒體平臺。通過對社交網(wǎng)絡(luò)的研究,企業(yè)可以跟蹤信息傳播路徑?;谟脩舻男袨楹蛯傩詷?biāo)簽,可以生成用戶畫像,從而了解用戶喜好,企業(yè)根據(jù)分析結(jié)果來開展精準(zhǔn)營銷。數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題三、數(shù)據(jù)采集方法第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集

系統(tǒng)日志系統(tǒng)日志數(shù)據(jù)采集主要是收集公司業(yè)務(wù)平臺日常產(chǎn)生的大量日志數(shù)據(jù),供離線和在線大數(shù)據(jù)分析系統(tǒng)使用。很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具用于系統(tǒng)日志采集,如Hadoop公司的Chukwa,Cloudera公司的Flume,以及Facebook公司的Scribe等。這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百兆字節(jié)的日志數(shù)據(jù)采集和傳輸需求。數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題三、數(shù)據(jù)采集方法第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集

感知設(shè)備感知設(shè)備數(shù)據(jù)采集是指通過傳感器、攝像頭和其它智能終端自動采集信號、圖片或錄像來獲取數(shù)據(jù)。在智能制造、可穿戴設(shè)備、物聯(lián)網(wǎng)愈發(fā)普及的今天,高速、可靠的數(shù)據(jù)采集技術(shù)是當(dāng)前需要重點突破的方向。科技快速發(fā)展,技術(shù)創(chuàng)新給大數(shù)據(jù)采集提供了新的方法,比如基于眼動(EM)、腦電圖(EEG)、事件相關(guān)電位(ERP)、皮膚電反應(yīng)(GSR)、肌電(EMG)、心電圖(ECG)等前沿科技來采集數(shù)據(jù)。通過感知設(shè)備對生物數(shù)據(jù)進行采集的方式在廣告、消費者評論領(lǐng)域均有很強的應(yīng)用價值,逐漸成為營銷領(lǐng)域研究者的“新寵”。數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題三、數(shù)據(jù)采集方法第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集

網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是指按照一定規(guī)則在搜索引擎下載并存儲網(wǎng)頁的程序或腳本,又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機器人。傳統(tǒng)爬蟲從獲得一個或若干初始網(wǎng)頁的URL開始,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面抽取新的URL放入隊列,直到滿足系統(tǒng)的停止條件后結(jié)束。從嚴(yán)格意義上來說,爬蟲更像一種數(shù)據(jù)下載邏輯,很多軟件都具備爬蟲的功能(如Python、R、“火車頭”、“八爪魚”等)。數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題三、數(shù)據(jù)采集方法第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集

市場調(diào)查利用上文所說的信息化手段收集資料非常方便,但對于有些數(shù)據(jù),如顧客需求及偏好、顧客滿意度、市場環(huán)境和行情信息、競爭對手信息以及戰(zhàn)略合作伙伴方的情況等無法通過信息化手段取得資料時,則需要通過市場調(diào)查或科學(xué)的實驗方法來獲取一手?jǐn)?shù)據(jù)。市場調(diào)查分為線下、線上兩種。線下即傳統(tǒng)人與人面對面的調(diào)查方式;線上即網(wǎng)絡(luò)在線調(diào)查方式,相比線下方式可以在投入較少人力、時間和資金的情況下獲取更大規(guī)模數(shù)據(jù),許多企業(yè)和市場調(diào)研機構(gòu)越來越多地采用線上網(wǎng)絡(luò)市場調(diào)研的方式進行網(wǎng)絡(luò)營銷數(shù)據(jù)采集。數(shù)據(jù)類型丨數(shù)據(jù)來源丨數(shù)據(jù)采集方法丨大數(shù)據(jù)采集面臨的問題四、大數(shù)據(jù)采集面臨的問題第1節(jié)

數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)采集數(shù)據(jù)獲取渠道缺乏項目二數(shù)據(jù)質(zhì)量難以保證項目三隱私安全問題凸顯缺少數(shù)據(jù)獲取渠道,是數(shù)據(jù)分析面臨的一大難題。很多行業(yè)和企業(yè)并沒有積累數(shù)據(jù)的意識,導(dǎo)致很多數(shù)據(jù)存在空白。此外,大數(shù)據(jù)包含大量信息,可能涉及到用戶的隱私和公司的機密,企業(yè)和政府不愿意分享數(shù)據(jù)。互聯(lián)網(wǎng)時代,在線活動與在線交易不斷增多,用戶數(shù)據(jù)與隱私泄露事件時有發(fā)生,網(wǎng)絡(luò)安全威脅更為嚴(yán)峻。數(shù)據(jù)挖掘一方面可以被企業(yè)有效利用,增強營銷活動的精準(zhǔn)度,提升營銷效率;但另一方面,如果缺乏有效監(jiān)管,用戶數(shù)據(jù)被不法分子得到,將會帶來嚴(yán)重的損失與危害。大數(shù)據(jù)的“大”是指全體樣本,而非單指數(shù)據(jù)量大?,F(xiàn)有平臺數(shù)據(jù)質(zhì)量參差不齊,大數(shù)據(jù)采集能力有待提升,實踐中很難獲得全樣本數(shù)據(jù),龐雜的數(shù)據(jù)中充斥著大量無效的干擾性數(shù)據(jù)、缺失內(nèi)容,如何讓收集到的數(shù)據(jù)樣本豐富全面,是大數(shù)據(jù)給營銷變革帶來的挑戰(zhàn)之一。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約一、數(shù)據(jù)清洗概念:數(shù)據(jù)清洗主要是通過填寫缺失值對“臟數(shù)據(jù)”進行處理,識別或刪除離群點,將數(shù)據(jù)庫中所存數(shù)據(jù)精細(xì)化,并使剩余數(shù)據(jù)轉(zhuǎn)化成標(biāo)準(zhǔn)可接受格式的過程,以達到格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)消除、錯誤糾正、重復(fù)數(shù)據(jù)清除等目的。原始數(shù)據(jù)中的“臟數(shù)據(jù)”指源系統(tǒng)中不在給定的范圍內(nèi)、對于實際業(yè)務(wù)毫無意義、數(shù)據(jù)格式非法、存在不規(guī)范的編碼和含糊業(yè)務(wù)邏輯的數(shù)據(jù)。在數(shù)據(jù)清洗步驟中,主要解決數(shù)據(jù)出現(xiàn)遺漏值、噪聲、異常值等問題。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約一、數(shù)據(jù)清洗遺漏值(missing

value)遺漏值(missing

value)為數(shù)據(jù)遺漏、缺失的情況,如某客戶的月消費數(shù)據(jù)缺失。在數(shù)據(jù)搜集階段,由于設(shè)備故障或人為失誤均有可能導(dǎo)致數(shù)據(jù)的遺漏,應(yīng)將數(shù)據(jù)補全。處理遺漏數(shù)據(jù)最簡單直接的方法是直接刪去該變量值,但當(dāng)數(shù)據(jù)遺漏比例很大時,此方法將造成大量數(shù)據(jù)流失;第二種方法是使用一個常數(shù)或該字段所有數(shù)據(jù)的平均值統(tǒng)一替換遺漏值,例如用其他用戶消費均值替換某客戶消費指標(biāo)的遺漏值,此方法缺點是不具客觀性,當(dāng)數(shù)據(jù)本身具有類別或等級之分時,容易高估或低估數(shù)據(jù);最后還可利用數(shù)據(jù)挖掘模式來填充遺漏值,使用回歸分析、決策樹、人工神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘推導(dǎo)工具來推測填補遺漏值。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約一、數(shù)據(jù)清洗噪聲(noise)噪聲(noise)表示數(shù)據(jù)中的隨機誤差或干擾項。在數(shù)據(jù)收集、整理的過程中,會產(chǎn)生大量的噪聲數(shù)據(jù),即“離群點”。比如在年齡收入曲線中,出現(xiàn)個別遠(yuǎn)離曲線的極端點。因為噪聲數(shù)據(jù)不在合理的數(shù)據(jù)域內(nèi),所以分析、挖掘過程中輸入和輸出數(shù)據(jù)的質(zhì)量難以保證,容易造成后續(xù)的挖掘結(jié)果不準(zhǔn)確、不可靠。常用的消除噪聲數(shù)據(jù)的方法分為兩種。一種是噪聲平滑方法(datapolishing),常用分箱法處理,即將預(yù)處理數(shù)據(jù)分布到不同的箱中,通過參考周圍實例平滑噪聲數(shù)據(jù)。具體的分箱技術(shù)包括:平均值平滑,中位數(shù)平滑,按設(shè)定的箱邊界平滑。另一種是噪聲過濾(datafilters),利用聚類方法對離群點進行分析、過濾。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約一、數(shù)據(jù)清洗異常值(abnormal

value)若某一些數(shù)據(jù)的表現(xiàn)與其他數(shù)據(jù)差距很大時,這些數(shù)據(jù)稱為異常值(abnormal

value),如數(shù)據(jù)顯示某用戶的月消費金額基本在3000~5000元范圍內(nèi),若賬單有一條30000元的記錄,即為異常值。異常值可通過經(jīng)驗判斷、標(biāo)準(zhǔn)分?jǐn)?shù)(或法則)、箱線圖等方法來判斷。對于異常值的處理需根據(jù)具體情況分析,若該異常值擁有特殊意義,則需保留;若由于儀器工具或人工失誤導(dǎo)致,可根據(jù)情況考慮直接刪除該數(shù)據(jù),或用其它數(shù)值更替,將數(shù)據(jù)的范圍歸一化。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約二、數(shù)據(jù)集成概念:數(shù)據(jù)清洗后方可進行數(shù)據(jù)集成,數(shù)據(jù)集成是將來自多個數(shù)據(jù)源的數(shù)據(jù)合并,統(tǒng)一存放在一個數(shù)據(jù)庫中。由于描述同一個概念的屬性在不同數(shù)據(jù)庫可能有不同的名字,在進行數(shù)據(jù)集成時常會引起數(shù)據(jù)的不一致和冗余。命名的不一致常常也會導(dǎo)致同一屬性值的內(nèi)容不同。使用數(shù)據(jù)量太大的數(shù)據(jù)進行分析不僅會降低數(shù)據(jù)挖掘速度,也會誤導(dǎo)數(shù)據(jù)挖掘進程。因此進行數(shù)據(jù)清洗之后,在數(shù)據(jù)集成中還需要注意消除數(shù)據(jù)的不一致、重復(fù)和冗余。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約二、數(shù)據(jù)集成數(shù)據(jù)不一致數(shù)據(jù)不一致是指兩條及以上數(shù)據(jù)出現(xiàn)數(shù)據(jù)的矛盾性或不相容性的情況。由于整合數(shù)據(jù)后,不同來源的數(shù)據(jù)屬性可能不同,在數(shù)據(jù)表達、比例定義或編碼上也會有所不同,因此產(chǎn)生數(shù)值或字段不一致的狀況。例如在兩個不同的數(shù)據(jù)表中,用戶在線時長分別用小時和分鐘兩種單位來記錄。為使數(shù)據(jù)保持一致,需要先確定作為標(biāo)準(zhǔn)的字段,然后對另外的字段進行單位的換算或者修改來保持?jǐn)?shù)據(jù)一致。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約二、數(shù)據(jù)集成數(shù)據(jù)重復(fù)重復(fù)數(shù)據(jù)是指重復(fù)出現(xiàn)的數(shù)值或字段。對于重復(fù)數(shù)據(jù)的處理方法也需根據(jù)實際情況進行判斷:如因數(shù)據(jù)庫信息有重合,在數(shù)據(jù)整合后發(fā)生的數(shù)據(jù)重復(fù),刪除多余記錄只保留一條即可;如確實為幾條不同的記錄,如同一用戶對同一規(guī)格的產(chǎn)品、下單兩次,則兩條均需保留。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約二、數(shù)據(jù)集成數(shù)據(jù)冗余數(shù)據(jù)冗余是指數(shù)據(jù)之間的重復(fù),也可以說是同一數(shù)據(jù)存儲在不同數(shù)據(jù)文件中的現(xiàn)象。屬性命名的不一致,也有可能導(dǎo)致集中的冗余數(shù)據(jù)。數(shù)據(jù)冗余的處理主要是針對具有相同意義或彼此間存在已知數(shù)學(xué)關(guān)系的字段,也就是此變量的屬性或代表的意義可由另一變量推導(dǎo)而得,如數(shù)據(jù)中含有用戶1-12月的“月消費金額”及全年的“年消費金額”,“年消費金額”完全可以由每月消費金額累加得出,即為數(shù)據(jù)冗余。為使數(shù)據(jù)更加簡潔,可將該字段剔除。若數(shù)據(jù)冗余因?qū)傩悦灰恢聦?dǎo)致,需經(jīng)具體判斷后處理或保留。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約三、數(shù)據(jù)變換概念:數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合于各種數(shù)據(jù)挖掘模式的形式,以轉(zhuǎn)換原始數(shù)據(jù)或重新編碼的方式提升數(shù)據(jù)價值,其中可能涉及數(shù)據(jù)數(shù)值與數(shù)據(jù)類別的轉(zhuǎn)換。例如,將數(shù)值型數(shù)據(jù)轉(zhuǎn)換為離散型的類別數(shù)據(jù),根據(jù)領(lǐng)域知識將舊變量合并成新的變量,或?qū)?shù)據(jù)歸一化以避免尺度的差異,常見如人工神經(jīng)網(wǎng)絡(luò)對輸入數(shù)據(jù)的歸一化。對于數(shù)據(jù)的數(shù)值轉(zhuǎn)換,可采取歸一化和標(biāo)準(zhǔn)化方法,歸一化(normalization)是將屬性數(shù)據(jù)按比例縮放到一個特定的區(qū)間,如[-1,1]或[0,1],標(biāo)準(zhǔn)化(standardization)則是依據(jù)數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進行標(biāo)準(zhǔn)化處理。對于數(shù)據(jù)的屬性轉(zhuǎn)換,可視情況將離散數(shù)據(jù)轉(zhuǎn)換為連續(xù)數(shù)據(jù),如將顧客評論中“比較滿意”“滿意”“非常滿意”轉(zhuǎn)化為數(shù)值8、9、10,或是將連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù),例如按照顧客的價值評分把顧客分為白銀貴賓、黃金貴賓、鉑金貴賓、鉆石貴賓。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理第2節(jié)

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗|數(shù)據(jù)集成|數(shù)據(jù)變換|數(shù)據(jù)歸約四、數(shù)據(jù)規(guī)約概念:數(shù)據(jù)歸約的主要目的是得到與原始數(shù)據(jù)具有相同信息但較精簡的數(shù)據(jù)集。數(shù)據(jù)挖掘時數(shù)據(jù)量往往非常大,數(shù)據(jù)歸約技術(shù)通過選擇替代的、較少的數(shù)據(jù)來減少數(shù)據(jù)量,可以有效縮減數(shù)據(jù)規(guī)模,在盡可能保持?jǐn)?shù)據(jù)原貌的前提下最大限度地精簡數(shù)據(jù)量,使得大數(shù)據(jù)挖掘更精準(zhǔn)高效。企業(yè)根據(jù)現(xiàn)實情況主要進行維度規(guī)約和數(shù)值規(guī)約兩方面的處理。數(shù)據(jù)維度歸約常用于分類或預(yù)測問題,最直接的方式是以目標(biāo)變量作為比較基準(zhǔn),利用特征選取法將變量維度中與目標(biāo)變量不相關(guān)的屬性刪除,或利用主成分分析法將變量作線性轉(zhuǎn)換,只留下提供較多信息的幾個主成分,以縮小變量維度。數(shù)值規(guī)約通過選擇替代的、較少的數(shù)據(jù)來減少數(shù)據(jù)量,包括有參數(shù)方法和無參數(shù)方法。參數(shù)方法可采用回歸模型與對數(shù)線性模型來實現(xiàn),非參數(shù)化方法包括直方圖、聚類、抽樣、數(shù)據(jù)立方體聚集等方法。案例3-1擁抱大數(shù)據(jù):1號店的電商營銷之道大數(shù)據(jù)時代的到來,顛覆了傳統(tǒng)的市場營銷模式與理念,要求市場營銷不能再僅憑嗅覺和感覺做事,也要依靠科技和分析洞察能力。近年來隨著我國大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,越來越多的國內(nèi)企業(yè)投身到這場變革的浪潮中來。1號店作為中國電子商務(wù)行業(yè)最早的“網(wǎng)上超市”,是最早將大數(shù)據(jù)融入到營銷中的企業(yè)之一。1號店的大數(shù)據(jù)營銷主要有以下舉措:建立營銷系統(tǒng),實現(xiàn)全自動化構(gòu)建數(shù)據(jù)倉庫,挖掘用戶價值立足產(chǎn)品特點,打造產(chǎn)品推薦抓住用戶個性,提高用戶體驗利用網(wǎng)絡(luò)技術(shù),實現(xiàn)自動調(diào)價基本概念

結(jié)構(gòu)化數(shù)據(jù)(StructuredData)

半結(jié)構(gòu)化數(shù)據(jù)(Semi-StructuredData)

數(shù)據(jù)整合(DataIntegration)

數(shù)據(jù)歸約(DataReduction)

非結(jié)構(gòu)化數(shù)據(jù)(UnstructuredData)

數(shù)據(jù)清理(DataCleaning)數(shù)據(jù)轉(zhuǎn)換(DataTransformation)思考題簡述大數(shù)據(jù)分析的流程及每一步的主要任務(wù)。舉例說明大數(shù)據(jù)的類型,分別有什么特點?營銷實踐中,可以通過哪些渠道收集用戶數(shù)據(jù),如何確保隱私保護等問題?數(shù)據(jù)預(yù)處理的流程是什么,對于大數(shù)據(jù)分析有什么作用?THANKS!

第4章

營銷大數(shù)據(jù)分析本章內(nèi)容

第1節(jié)

預(yù)測分析

第2節(jié)

文本分析

第3節(jié)

社交網(wǎng)絡(luò)分析

第4節(jié)

數(shù)據(jù)分析工具學(xué)習(xí)目標(biāo)

理解并掌握預(yù)測分析的內(nèi)容、作用及分析方法

理解并掌握文本分析的內(nèi)容、作用及分析流程

理解并掌握社交網(wǎng)絡(luò)分析的內(nèi)容、作用及分析指標(biāo)

了解數(shù)據(jù)分析常用工具及其特點導(dǎo)入案例

大數(shù)據(jù)助力京東物流顧客享受分鐘級收貨體驗“購物車還沒清空,就接到了配送的電話”,“京東物流速度簡直不可思議”……京東物流數(shù)據(jù)顯示,2021年618期間,最快僅4分鐘就將快遞送至客戶手中。618當(dāng)日,京東穩(wěn)定履約背后的技術(shù)數(shù)據(jù)也首次公開:全國日均單量預(yù)測準(zhǔn)確率超過95.5%,32座亞洲一號護航,機器人倉單日訂單處理量超過100%,智能快遞車送達業(yè)務(wù)量同比增長24倍。通過大數(shù)據(jù),京東能夠有效分析出消費者的偏好,將消費者的訂貨需求準(zhǔn)確傳達給最近的倉庫,精準(zhǔn)高速配送的同時也不會發(fā)生送錯現(xiàn)象。京東物流“預(yù)測式發(fā)貨(AnticipatoryShipping)”正是利用大數(shù)據(jù)預(yù)測,直接鎖定潛在客戶需求,實現(xiàn)精準(zhǔn)營銷。根據(jù)預(yù)測結(jié)果,京東物流將貨物運送至距離潛在客戶最近的物流網(wǎng)點,實現(xiàn)“單未下貨先行”;消費者下單后,直接從距離最近的倉庫調(diào)撥貨物,讓消費者購買商品實現(xiàn)“即買即得”。本章知識結(jié)構(gòu)預(yù)測分析文本分析數(shù)據(jù)分析工具營銷大數(shù)據(jù)分析社交網(wǎng)絡(luò)分析分析內(nèi)容:用戶行為、偏好、關(guān)系、價值預(yù)測分析方法:回歸、決策樹、隨機森林、神經(jīng)網(wǎng)絡(luò)、支持向量機、KNN算法等分析內(nèi)容:用戶特征、情感、需求分析分析流程:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析社交網(wǎng)絡(luò)核心概念及相關(guān)理論分析內(nèi)容:營銷推薦網(wǎng)絡(luò)、用戶間關(guān)系、用戶與企業(yè)互動分析分析指標(biāo):網(wǎng)絡(luò)密度、中心度、凝聚子群等EXCEL、SPSS、SAS、R、Python、MATLAB、Tableau等預(yù)測分析概述丨預(yù)測分析方法一、預(yù)測分析概述第1節(jié)

預(yù)測分析預(yù)測分析的內(nèi)容

用戶行為預(yù)測從大量的歷史用戶數(shù)據(jù)中挖掘出用戶的特定行為及其規(guī)律,快速準(zhǔn)確地預(yù)測未來一定時間內(nèi)即將發(fā)生的用戶行為,如瀏覽、搜索、點擊、收藏、購買、流失、違約等未來行為動向。用戶偏好預(yù)測基于歷史數(shù)據(jù)對用戶品類偏好、價格偏好、渠道偏好、品牌偏好等進行預(yù)測,挖掘用戶興趣,為用戶提供“投其所好”的個性化產(chǎn)品和服務(wù),增強用戶粘性及對企業(yè)的忠誠度。用戶關(guān)系預(yù)測基于用戶數(shù)據(jù)(如微博中的用戶基本信息、所在位置、微博內(nèi)容、粉絲用戶、關(guān)注用戶等屬性數(shù)據(jù))進行預(yù)測分析,挖掘用戶間潛在的鏈接關(guān)系,降低網(wǎng)絡(luò)稀疏性、提高營銷效率。用戶價值預(yù)測結(jié)合交易數(shù)據(jù)預(yù)測用戶整個生命周期的購買力,識別和重點維護高價值用戶。文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析預(yù)測分析概述丨預(yù)測分析方法一、預(yù)測分析概述第1節(jié)

預(yù)測分析預(yù)測分析在營銷中的作用

識別潛在客戶項目三項目二項目四企業(yè)通過大數(shù)據(jù)預(yù)測分析,能夠有效識別高質(zhì)量潛在客戶,并以高效、針對性地吸引和觸達客戶,使?fàn)I銷活動更具目標(biāo)性,從而大幅降低成本。增強客戶粘性提升客戶價值減少客戶流失文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析企業(yè)通過大數(shù)據(jù)預(yù)測分析,能夠為客戶提供更優(yōu)惠便捷的產(chǎn)品或服務(wù)選擇,創(chuàng)造極致顧客體驗,增強客戶粘性,鞏固客戶關(guān)系,提高客戶忠誠度。企業(yè)通過大數(shù)據(jù)預(yù)測分析,能夠識別客戶價值,從而對高價值目標(biāo)客戶重點營銷,同時提升低價值客戶貢獻度,充分挖掘現(xiàn)有客戶的潛力,獲取最大價值回報。企業(yè)通過大數(shù)據(jù)預(yù)測分析,預(yù)測顧客隱藏的趨勢與行為,識別潛在流失客戶,便于主動出擊,實施挽回計劃,減少客戶流失,最大限度降低損失。文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析第1節(jié)

預(yù)測分析預(yù)測分析概述丨預(yù)測分析方法二、預(yù)測分析方法

回歸分析(RegressionAnalysis)回歸分析是在自變量和因變量間關(guān)系的基礎(chǔ)上建立回歸方程,并將該方程作為預(yù)測模型,根據(jù)自變量在預(yù)測期的值來預(yù)測因變量數(shù)值的分析方法。按照自變量個數(shù)分類,分為一元回歸和多元回歸分析;按照自變量和因變量間關(guān)系分類,分為線性回歸和非線性回歸。如谷歌在

2014年發(fā)布的通過電影相關(guān)搜索量數(shù)據(jù)提前預(yù)測電影上映首周票房收入的預(yù)測模型,采用的就是最為簡單的線性回歸方法,但其預(yù)測準(zhǔn)確度高達94%。線性模型雖然表面上看起來簡單,精準(zhǔn)度卻很高。越是簡單的模型越容易被人們理解和分析,簡單且效果好是實際應(yīng)用中一直追求的目標(biāo)。文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析第1節(jié)

預(yù)測分析預(yù)測分析概述丨預(yù)測分析方法二、預(yù)測分析方法決策樹是一種樹形結(jié)構(gòu),由3個主要部分組成:根節(jié)點、分支和葉子節(jié)點。最頂部的是根節(jié)點,表示一個待分類的數(shù)據(jù)類別或?qū)傩?,從根結(jié)點開始分支分裂,直到葉子節(jié)點給出結(jié)果。三種經(jīng)典算法:ID3、C4.5和CART算法,不同算法會根據(jù)不同標(biāo)準(zhǔn)選擇最優(yōu)的分裂屬性,進而生成一棵完整的決策樹。右圖為一棵構(gòu)建好的決策樹。決策樹(DecisionTrees)文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析第1節(jié)

預(yù)測分析預(yù)測分析概述丨預(yù)測分析方法二、預(yù)測分析方法隨機森林通過建立多棵隨機生成的決策樹而形成。通俗來講,隨機森林是若干決策樹進行“投票表決”的過程:每棵決策樹給出“投票結(jié)果”,隨機森林的輸出結(jié)果則是將若干單個決策樹的“投票結(jié)果”整合后的“最終投票結(jié)果”。仍以決策樹的分類問題為例,如果隨機森林中包含1000棵決策樹,有892棵決策樹的預(yù)測結(jié)果為“有購買意向”,108棵決策樹的預(yù)測結(jié)果為“無購買意向”,經(jīng)過1000棵決策樹的“投票表決”,判斷結(jié)果為該用戶有購買意向。隨機森林(RandomForest)文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析第1節(jié)

預(yù)測分析預(yù)測分析概述丨預(yù)測分析方法二、預(yù)測分析方法以一個經(jīng)典的單層神經(jīng)網(wǎng)絡(luò)為例,包含輸入層、中間層(也叫隱藏層)、輸出層三個層次。類比生物神經(jīng)元的工作原理,在人工神經(jīng)網(wǎng)絡(luò)中,一個神經(jīng)元有n個輸入,每一個輸入對應(yīng)一個權(quán)值w,神經(jīng)元內(nèi)會對輸入與權(quán)重做乘法后求和,求和的結(jié)果與偏置做差,最終將結(jié)果放入激活函數(shù)中,由激活函數(shù)給出最后的輸出結(jié)果。人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork)文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析第1節(jié)

預(yù)測分析預(yù)測分析概述丨預(yù)測分析方法二、預(yù)測分析方法支持向量機的基本思想是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面。SVM和線性回歸的思想有相似之處,兩者都是尋找一條最佳直線,但定義方法不同,線性回歸要求直線到各個點的距離最近,而SVM要求直線離兩邊點距離盡量大。如下圖,SVM劃分直線使得圓形和三角形分離盡量大。支持向量機(Support

Vector

Machine)文本分析社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析第1節(jié)

預(yù)測分析預(yù)測分析概述丨預(yù)測分析方法二、預(yù)測分析方法KNN算法的思路正如其名,是借助樣本點附近的K個“Neighbors”是什么類別來判斷該樣本的所屬類別。以經(jīng)典示意圖進行說明。有兩類已知標(biāo)簽的數(shù)據(jù)(藍方塊和紅三角),綠圓圈是需要進行分類判斷的樣本點。如果K=3(判斷范圍為小圓區(qū)域),范圍內(nèi)紅三角多,則綠圓圈屬于紅三角類別;而如果K=5(判斷范圍為大圓區(qū)域),范圍內(nèi)藍方塊多,則綠圓圈屬于藍方塊類別。KNN(K-NearestNeighbors)文本分析(TextAnalysis)又稱文本挖掘(TextMining),是指從大量非結(jié)構(gòu)化文本數(shù)據(jù)中抽取特征詞進行量化以表示文本信息。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程一、文本分析概述文本分析可以回答“是什么?”“為什么?”揭示出非結(jié)構(gòu)化文本信息中的人物、事件、時間、地點等內(nèi)容反映用戶購買和使用產(chǎn)品的潛在動機和真實需求為客戶體驗、市場研究、用戶調(diào)查以及數(shù)據(jù)分析和媒體測量提供關(guān)鍵解決方案社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程這里是文本這里是文本這里是文本這里是文本數(shù)據(jù)采集數(shù)據(jù)分析二、文本分析流程數(shù)據(jù)預(yù)處理數(shù)據(jù)分析用戶交流記錄客戶投訴意見用戶產(chǎn)品評論用戶搜索記錄……分詞清洗剔除停止詞拼寫檢查詞干化關(guān)鍵詞抽取語義網(wǎng)絡(luò)分析情感傾向分析主題建?!缃痪W(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程一、文本分析概述用戶特征分析對用戶在社交網(wǎng)絡(luò)平臺發(fā)表觀點、撰寫文章、與朋友互動等活動產(chǎn)生的文本進行分析,得到能夠表達用戶日常行為的主題詞,進而得知用戶特征。用戶情感分析用戶評論信息中包含著豐富的情感色彩和情感傾向,如喜、怒、哀、樂、批評、贊揚等?;谶@些帶有主觀色彩的評論,企業(yè)識別出用戶文本背后蘊含的情緒或情感。用戶需求分析通過對用戶在社交平臺、購物網(wǎng)站上在線交流、分享經(jīng)驗、發(fā)表評價等活動生成的內(nèi)容進行文本分析,能夠快速、準(zhǔn)確地捕捉用戶需求。文本分析的內(nèi)容在計算機找出輸入或識別等錯誤后,根據(jù)檢查結(jié)果決定是否進行改正將英文單詞的派生形式或中文詞語的同義詞提取和還原為對應(yīng)詞干對僅具有語言學(xué)的意義,而對所表達的內(nèi)容沒有太大意義的詞進行過濾對文本中的HTML標(biāo)簽、URL地址、圖像等沒有實質(zhì)性意義的內(nèi)容進行清洗按照一定規(guī)則對文本語料中的基本詞匯進行劃分社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程(一)數(shù)據(jù)采集(二)數(shù)據(jù)預(yù)處理分詞清洗停用詞過濾拼寫檢查詞干化營銷文本數(shù)據(jù)來源渠道豐富,如社交平臺上的用戶交流記錄、客戶意見建議、在線口碑、用戶評論、搜索引擎中的用戶搜索記錄、用戶發(fā)表的微博等自媒體內(nèi)容等。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程(三)數(shù)據(jù)分析關(guān)鍵詞抽取關(guān)鍵詞抽?。↘eywordsExtraction)可以精煉文本信息,讀者通過幾個關(guān)鍵詞便可領(lǐng)略文本大意。在提取得到關(guān)鍵詞后,還可對每個關(guān)鍵詞進行詞頻統(tǒng)計,并制作個性化詞云圖。應(yīng)用:右圖為2021年鴻星爾克河南捐款事件網(wǎng)友評論的詞云圖,展示方法美觀、易視,看出關(guān)鍵詞有鴻星爾克、買、加油、鞋子、好、爾克、支持等,體現(xiàn)消費者的積極態(tài)度。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程(三)數(shù)據(jù)分析主題抽取主題抽?。═opicExtraction),或主題建模(TopicModeling),用來挖掘文本中隱含的主題以及各個主題間關(guān)聯(lián)變化。常用技術(shù)有LDA、LSA、PLSA等。應(yīng)用:以微博營銷為例,微博用戶標(biāo)簽常被用作內(nèi)容推薦的依據(jù),然而自定義標(biāo)簽數(shù)量有限。企業(yè)可對用戶微博文本數(shù)據(jù)進行主題抽取,分析得出用戶習(xí)慣、偏好等屬性標(biāo)簽,產(chǎn)生用戶畫像,對用戶進行商品個性化推薦。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第2節(jié)

文本分析文本分析概述丨文本分析流程(三)數(shù)據(jù)分析關(guān)系抽取關(guān)系抽?。≧elationExtraction)是指基于社會網(wǎng)絡(luò)對文本中不同的詞語進行分析,提取語義關(guān)系。應(yīng)用:如基于小米手機正面評論語義網(wǎng)絡(luò)圖,可以看出用戶評論的關(guān)注點(如“效果”、“屏幕”、“速度”、“拍照”等),還可以看出它們之間的關(guān)系(如“效果”與“待機時間”、“拍照”、“音效”、“速度”等性能密切相關(guān))。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)一、社交網(wǎng)絡(luò)基礎(chǔ)知識社交網(wǎng)絡(luò)(SocialNetwork),又稱社會網(wǎng)絡(luò)、社會化網(wǎng)絡(luò),是指個體成員之間通過社交關(guān)系結(jié)成的網(wǎng)絡(luò)體系。個體,又稱節(jié)點(Node),可以是組織、個人、網(wǎng)絡(luò)ID等不同含義的實體或虛擬個體。六度分隔理論強關(guān)系弱關(guān)系頓巴數(shù)貝肯數(shù)社交網(wǎng)絡(luò)中的基礎(chǔ)理論及關(guān)鍵概念社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)一、社交網(wǎng)絡(luò)基礎(chǔ)知識數(shù)貝肯數(shù)名稱內(nèi)容結(jié)論營銷啟示六度分隔理論最多通過六個人,即可認(rèn)識任意一個陌生人。任何兩位素不相識的人之間總能夠產(chǎn)生必然聯(lián)系或關(guān)系。充分發(fā)揮社交網(wǎng)絡(luò)強勢傳播的杠桿作用,使信息擴散更加高效順暢。強關(guān)系弱關(guān)系強關(guān)系是穩(wěn)定但范圍有限的社會關(guān)系,如親人;弱關(guān)系是關(guān)系較淺但更為廣泛的社會關(guān)系,如網(wǎng)友。強關(guān)系網(wǎng)絡(luò)成員互動頻率較高,更容易產(chǎn)生信任;弱關(guān)系促成信息流動,可以獲得更豐富的信息。強關(guān)系、弱關(guān)系分別通過用戶間的聯(lián)系深度和廣度,在成員的活躍維護方面和規(guī)模擴張方面發(fā)揮重要作用。頓巴數(shù)頓巴教授研究得出,人類擁有穩(wěn)定社交關(guān)系的人數(shù)是148人,四舍五入為150人。大多數(shù)人只能與150人建立起實質(zhì)關(guān)系,超過一定數(shù)量后,個體間的交互及影響減弱很多。與客戶保持密切聯(lián)系,加強信任,建立起穩(wěn)定的社交關(guān)系;對擁有高價值資源的重點客戶加強聯(lián)系,實現(xiàn)人脈資源擴張和資源價值放大。貝肯數(shù)貝肯一類普通演員與明星大腕發(fā)生聯(lián)系所需要的中間人數(shù)量在2.6-3之間?!靶∪宋铩币材芊浅=咏W(wǎng)絡(luò)中心;隔離高鏈接性人物,即可阻斷兩個網(wǎng)絡(luò)之間的鏈接。不僅大V值得關(guān)注,像貝肯這樣的用戶也應(yīng)給予重視;高鏈接節(jié)點用戶流失可能造成整個網(wǎng)絡(luò)崩潰。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)一、社交網(wǎng)絡(luò)基礎(chǔ)知識社交網(wǎng)絡(luò)通常以關(guān)系圖的形式表示。下圖表示一個由10個節(jié)點組成的小型網(wǎng)絡(luò)。節(jié)點間的連線表示個體間存在關(guān)系,連線越多表示聯(lián)系越密切。圖形表示對用戶間關(guān)系進行分析,確定用戶社交圈及在社交圈中的地位、判斷社交圈中的信息擴散速度等內(nèi)容利用營銷事件或產(chǎn)品的推薦網(wǎng)絡(luò)圖,分析網(wǎng)絡(luò)傳播的結(jié)構(gòu)、推薦路徑,找到熱點事件或產(chǎn)品,進行有效營銷社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)二、社交網(wǎng)絡(luò)分析概述社交網(wǎng)絡(luò)分析(SocialNetworkAnalysis)是基于信息學(xué)、數(shù)學(xué)、社會學(xué)、管理學(xué)、心理學(xué)等多學(xué)科的理論和方法,理解人類各種社交關(guān)系的形成、行為特點以及信息傳播規(guī)律的一種可計算分析方法。內(nèi)容營銷推薦網(wǎng)絡(luò)分析用戶間關(guān)系分析觀察用戶對企業(yè)品牌、產(chǎn)品及促銷優(yōu)惠活動的情緒及反應(yīng),制定實時社交網(wǎng)絡(luò)回應(yīng)決策,優(yōu)化調(diào)整營銷策略用戶與企業(yè)互動分析根據(jù)社交網(wǎng)絡(luò)分析識別出的用戶社交關(guān)系,將相關(guān)產(chǎn)品信息推廣和擴散至目標(biāo)用戶,有效拓展?jié)撛诳蛻糍Y源企業(yè)在進行營銷時,僅通過將信息告知少量KOL,足以使信息最大限度在社交網(wǎng)絡(luò)上進行傳播并影響其他用戶定位KOL加速信息傳播社交推薦拓展客戶資源對社交媒體平臺的用戶生成內(nèi)容和行為進行分析,精準(zhǔn)識別客戶需求,實現(xiàn)客戶和資源的精準(zhǔn)匹配識別需求實現(xiàn)精準(zhǔn)匹配作用社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)三、社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)網(wǎng)絡(luò)密度網(wǎng)絡(luò)密度為網(wǎng)絡(luò)中實際存在邊數(shù)與可容納邊數(shù)上限的比值。網(wǎng)絡(luò)密度=當(dāng)前關(guān)系數(shù)÷理論最大關(guān)系數(shù)0≤網(wǎng)絡(luò)密度≤1以微信群為例:家庭群,群成員均為家庭成員,彼此非常熟悉,網(wǎng)絡(luò)密度為1;微商群,成員彼此間幾乎不認(rèn)識,網(wǎng)絡(luò)密度幾乎接近于0;社區(qū)團購群,群成員同住一個社區(qū),彼此存在一定聯(lián)系,網(wǎng)絡(luò)密度在0-1之間。社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)三、社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)中心度接近中心度ClosenessCentrality表示某節(jié)點與其他節(jié)點之間的接近程度中介中心度BetweenCentrality以經(jīng)過某節(jié)點最短路徑的數(shù)目來刻畫節(jié)點重要性點度中心度

DegreeCentrality對一個節(jié)點單獨價值的衡量,是刻畫中心度最直接的指標(biāo)社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析文本分析第3節(jié)

社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)基礎(chǔ)知識丨社交網(wǎng)絡(luò)分析概述丨社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)三、社交網(wǎng)絡(luò)分析關(guān)鍵指標(biāo)凝聚子群“人以類聚,物以群分”網(wǎng)絡(luò)中某些行動者之間的關(guān)系特別緊密,以至于能結(jié)合成一個次級團體時,這樣的團體為凝聚子群。如果網(wǎng)絡(luò)存在凝聚子群,并且凝聚子群的密度較高,說明這個凝聚子群內(nèi)部的行動者間聯(lián)系緊密,在信息分享和合作方面交往頻繁。(圖片來自網(wǎng)絡(luò))社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具常用的分析工具繁多,根據(jù)功能主要分為:數(shù)據(jù)獲取、數(shù)據(jù)處理、建模和可視化四大類社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具操作簡便,數(shù)據(jù)分析入門級工具工作表方式管理數(shù)據(jù),數(shù)據(jù)一目了然,數(shù)據(jù)處理和管理更直觀、方便強大的數(shù)據(jù)處理和分析功能,如描述性統(tǒng)計、相關(guān)系數(shù)、概率分布、均值推斷、回歸分析、分類、聚類等支持可視化制圖,如折線圖、條形圖、散點圖、餅圖、圓環(huán)圖及一些立體圖形但也有其短板,如不能非常有效地處理大型數(shù)據(jù)集;無法進行復(fù)雜處理,有更高數(shù)據(jù)分析要求時需要使用專業(yè)分析工具一、Excel社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具二、SPSS最早的統(tǒng)計分析軟件操作界面極為友好,大多數(shù)操作可通過菜單和鼠標(biāo)拖曳來完成提供各種統(tǒng)計分析方法,如數(shù)據(jù)探索性分析、統(tǒng)計描述、列聯(lián)表分析、相關(guān)分析、方差分析、非參數(shù)檢驗、回歸分析等輸出結(jié)果美觀漂亮,以統(tǒng)一、規(guī)范的界面展現(xiàn)編程方便,無需通曉各種算法,只要了解統(tǒng)計分析原理,即可得到所需統(tǒng)計分析結(jié)果社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析Excel丨SPSS丨SAS

|R丨Python|MATLAB|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具三、SAS也是較早開發(fā)的一款統(tǒng)計分析軟件編程語句簡潔、短小,只需幾句簡短語句即可完成復(fù)雜運算分析方法齊、全、新,幾乎囊括了所有最新方法,分析技術(shù)先進可靠分析方法的實現(xiàn)通過過程調(diào)用完成,同時提供多種算法和選項社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具四、R是一種編程語言(不是統(tǒng)計軟件),官方描述為“用于統(tǒng)計計算和圖形的語言和環(huán)境”分析方法豐富,不僅包括經(jīng)典通用統(tǒng)計方法,還擁有大量前沿模型算法操作較為簡便,可通過調(diào)用現(xiàn)有模型算法解決一般性問題,也可自行編寫程序解決特殊性問題有開放的網(wǎng)絡(luò)社區(qū)化平臺,不斷吸引更多專家學(xué)者成為開發(fā)者,不斷吸引更多、更有效、更前沿的方法融入社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析Excel丨SPSS丨SAS|R丨Python

|MATLAB|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具五、Python功能非常強大,如數(shù)據(jù)爬取、數(shù)據(jù)處理、數(shù)據(jù)分析、機器學(xué)習(xí)、圖像處理等極簡主義,幾乎沒有多余的符號,使用的是簡單易懂的英語名稱,語法簡潔而清晰擁有豐富且成熟的標(biāo)準(zhǔn)庫,如Numpy(數(shù)學(xué)計算)、Pandas(數(shù)據(jù)處理)、Matplotlib(圖形繪制)、Scikit-learn(機器學(xué)習(xí))等,現(xiàn)成可直接使用強大的聯(lián)接功能,把不同語言(尤其是C/C++)編寫的程序無縫拼接,更好地發(fā)揮不同語言和工具的優(yōu)勢社交網(wǎng)絡(luò)分析數(shù)據(jù)分析工具預(yù)測分析Excel丨SPSS丨SAS|R丨Python|MATLAB

|Tableau文本分析第4節(jié)

數(shù)據(jù)分析工具六、MATLABMATLAB(MatrixLaboratory,矩陣實驗室),是一款數(shù)學(xué)軟件,具有卓越的數(shù)值計算能力編程簡單,允許數(shù)學(xué)形式語言編寫程序,又被稱為“演算紙式科學(xué)算法語言”快速排除輸入程序中的書寫、語法等錯誤,加快用戶編寫、修改和調(diào)試程序的速度繪圖操作方便,只需調(diào)用繪圖函數(shù)即可但也有一定劣勢,如程序執(zhí)行速度較慢,因此選擇MATLAB是編程效率和運行效率兩者之間的權(quán)衡

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論