




已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
商務智能 電子商務專業(yè)09級本科課程 姜元春電子商務研究所ycjiang 內(nèi)容回顧 1 商務智能整體架構數(shù)據(jù) 知識 行動2 數(shù)據(jù)倉庫基本知識4方面特征 基本過程 ETL的任務3 OLAP一個特征 三種操作 切 鉆 轉 電子商務專業(yè)09級本科課程 數(shù)據(jù)展現(xiàn) 數(shù)據(jù)管理 數(shù)據(jù)獲取 數(shù)據(jù)遷移 作業(yè)分配數(shù)據(jù)清洗 數(shù)據(jù)倉庫元數(shù)據(jù)管理 數(shù)據(jù)集市管理 安全性 分析管理 企業(yè)商務智能體系架構規(guī)劃 最終用戶 數(shù)據(jù)源 ETL EII 數(shù)據(jù)存儲管理 業(yè)務模型 數(shù)據(jù)展現(xiàn) 數(shù)據(jù)分析 賽博公司數(shù)據(jù)倉庫系統(tǒng) 實時交易 交易歷史 顧客信息 售后服務 產(chǎn)品數(shù)據(jù) 網(wǎng)站信息 評論信息 顧客 銷售 服務 產(chǎn)品 市場需求數(shù)據(jù)集市 售后服務數(shù)據(jù)集市 客服部門 銷售部門 ETL過程 抽取轉換裝載 數(shù)據(jù)倉庫 數(shù)據(jù)集市 業(yè)務數(shù)據(jù) OLAP簡介 鉆取 數(shù)據(jù)聚集 旋轉 數(shù)據(jù)挖掘概述 1 數(shù)據(jù)挖掘的概念2 聚類分析 相似度度量 電子商務專業(yè)09級本科課程 淘寶買家2012年3月一次購買的訂單規(guī)模和訂單金額 數(shù)據(jù)挖掘 引例 數(shù)據(jù)挖掘 引例 數(shù)據(jù)挖掘 引例 數(shù)據(jù)挖掘 引例 80 的買了相機包的消費者同時也買了濾鏡 數(shù)據(jù)挖掘概念 數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中抽取出潛在的 不為人知的有用信息 模式和趨勢 JiaweiHan 為什么需要數(shù)據(jù)挖掘 知識貧乏 數(shù)據(jù)爆炸 數(shù)據(jù)挖掘過程 數(shù)據(jù)選擇 從數(shù)據(jù)庫中提取與分析任務相關的數(shù)據(jù)數(shù)據(jù)預處理 數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式 包括標準化 離散化和屬性約簡等操作數(shù)據(jù)挖掘 基本步驟 使用智能方法提取數(shù)據(jù)模式模式評估 根據(jù)某種興趣度度量 識別提供知識的真正有用的模式知識表示 使用可視化和知識表示技術 向用戶提供挖掘的知識 數(shù)據(jù)預處理 標準化 目的 消除變量量綱的影響 數(shù)據(jù)預處理 離散化 目的 適應不同算法的需求 降低后續(xù)分析的復雜度 數(shù)據(jù)預處理 屬性約簡 目的 減少屬性維度 降低算法分析復雜度 數(shù)據(jù)預處理 屬性約簡 目的 減少屬性維度 降低算法分析復雜度 模式評估 5000個學生中3000打籃球3750喝可口可樂2000既打籃球又喝可口可樂打籃球 喝可口可樂 40 66 7 打籃球的學生普遍喜歡喝可樂打籃球 不喝可口可樂 20 33 3 更有用 模式評估 關系數(shù)據(jù)庫文本數(shù)據(jù)多媒體數(shù)據(jù)WEB數(shù)據(jù) 數(shù)據(jù)挖掘分類 數(shù)據(jù)類型 DataWarehouse 數(shù)據(jù)挖掘分類 WEB挖掘 數(shù)據(jù)挖掘分類 WEB挖掘 數(shù)據(jù)挖掘分類 WEB挖掘 數(shù)據(jù)挖掘分類 WEB挖掘 數(shù)據(jù)挖掘分類 知識類型 聚類挖掘分類挖掘關聯(lián)挖掘序列模式挖掘 數(shù)據(jù)挖掘概述 1 數(shù)據(jù)挖掘的概念2 聚類分析 相似度度量 電子商務專業(yè)09級本科課程 聚類 聚類 Clustering 就是將對象集合分成為多個類 Cluster 的過程 聚類分析是一種重要的人類活動 早在孩提時代 人就通過不斷改進下意識中的聚類模式來學會如何區(qū)分貓和狗 動物和植物 聚類分析無處不在 如果你是一個淘寶店鋪的老板 誰經(jīng)常光顧店鋪 誰買什么東西 買多少 按消費者的性別 年齡 職業(yè) 瀏覽次數(shù) 瀏覽時間 購物種類 金額等變量對消費者進行聚類這樣淘寶店鋪可以 識別顧客購買模式 如那些人喜歡 習慣周末時一次性大采購 需要針對不同的人群 制定不同的關系管理方式 以提高客戶對公司商業(yè)活動的響應率 聚類分析無處不在 如果你是銀行的客戶經(jīng)理 利用儲蓄額 刷卡消費金額 刷卡次數(shù) 誠信度等變量對客戶聚類 找出誰是銀行信用卡的黃金客戶 誰是容易流失的客戶這樣銀行可以 制定更吸引的服務 留住客戶 比如 一定額度和期限的免息透資服務 百盛的貴賓打折卡 在他或她生日的時候送上一個小蛋糕 聚類分析無處不在 如果你是社會性網(wǎng)站的站長 把每個用戶想象成圖中的一個節(jié)點 如果用戶A對用戶B有互動行為 轉發(fā) 評論等 在用戶A和用戶B之間建立一條有向邊這樣網(wǎng)站可以 基于用戶的互動信息 構建用戶興趣的挖掘算法 發(fā)現(xiàn)網(wǎng)站中具有相同興趣的用戶群體 聚類分析原理 引例 我們看看以下的例子 有16張牌如何將他們分為一組一組的牌呢 聚類分析原理 引例 分成四組每組里花色相同組與組之間花色相異 花色相同的牌為一副 聚類分析原理 引例 分成四組符號相同的牌為一組 符號相同的的牌 聚類分析原理 引例 分成兩組顏色相同的牌為一組 顏色相同的配對 聚類分析原理 引例 分成兩組大小相近的牌為一組 大配對和小配對 聚類分析 基本過程 基本過程選擇合理的相似度計算方法計算個體之間的距離或相似度 構建距離矩陣或相似度矩陣基于相似性 采取某種聚類方法進行聚類對不同類別的對象特征進行分析基本原則類內(nèi)對象相似性盡可能大 類間對象相似性盡可能小 聚類分析 基本過程 聚類分析 基本過程 距離計算 連續(xù)型屬性 歐氏距離 Euclideandistance 曼哈頓距離 Manhattandistance 明考斯基距離 Minkowskidistance 距離計算 連續(xù)型屬性 選用的度量單位直接影響聚類分析的結果 因此需要實現(xiàn)度量值的標準化 將原來的值轉化為無單位的值 給定一個變量f的度量值 可使用以下方法進行標準化 最大 最小值方法z score方法變量指數(shù)法 距離計算 連續(xù)型屬性標準化 a a min max min 連續(xù)型屬性標準化 最大 最小值方法 距離計算 連續(xù)型屬性 計算均值絕對偏差其中計算標準化的度量值 z score 連續(xù)型屬性標準化 z score方法 距離計算 連續(xù)型屬性 變量指數(shù)法把屬性值除以該屬性所有取值的均值 距離計算 離散型屬性 屬性值的個數(shù)是有限的 如性別 學歷 職業(yè)等二元變量標稱變量序數(shù)變量 距離計算 離散型屬性 二元變量變量取值只有兩種狀態(tài) 0或1 二元變量分為對稱二元變量和非對稱二元變量 二元變量 對稱的如果一個二元變量的兩個狀態(tài)是同等價值的 起發(fā)生具有相似的概率 則可以任取其中一種狀態(tài)編碼為1或者0 對于對稱的二元變量 采用簡單匹配系數(shù)來評價兩個對象之間的相異度 Objecti d 1 2 0 5 Objectj 二元變量 非對稱的如果變量的兩個狀態(tài)不是同樣重要的 則稱該變量是不對稱的 將比較重要通常也是出現(xiàn)概率比較小的狀態(tài)編碼為1 將另一種狀態(tài)編碼為0 對于非對稱的二元變量 采用Jaccard系數(shù)來評價兩個對象之間的相異度 二元變量的相異度計算 gender是一個對稱的二元變量其它的都是非對稱的二元變量 根據(jù)Jaccard系數(shù)計算得 標稱變量 NominalVariables 標稱變量是二元變量的推廣 它可以具有多于兩個的狀態(tài) 比如變量 學歷 可以有研究生 本科 本科以下等多種狀態(tài) 有兩種計算相異度的方法 方法1 簡單匹配方法m是匹配的數(shù)目 p是全部變量的數(shù)目方法2 使用二元變量為每一個狀態(tài)創(chuàng)建一個新的二元變量 可以用非對稱的二元變量來編碼標稱變量 標稱變量 NominalVariables d 1 2 1 3 d 2 3 3 3 標稱變量 NominalVariables 序數(shù)型變量 一個序數(shù)型變量可以是離散的也可以是連續(xù)的離散的序數(shù)型變量類似于標稱變量 除了它的M個狀態(tài)是以有意義的序列排序的 比如職稱 連續(xù)的序數(shù)型變量類似于區(qū)間標度變量 但是它沒有單位 值的相對順序是必要的 而其實際大小并不重要 比如比賽排名 序數(shù)型變量 將xif用它對應的秩代替將每個變量的值域映射到 0 0 1 0 上 使得每個變量都有相同的權重 這通過用zif來替代rif來實現(xiàn)用前面所述的區(qū)間標度變量的任一種距離計算方法來計算 序數(shù)型變量 c1 0 0 5c2 0 5 1 混合類型的變量 一個數(shù)據(jù)庫可能包含多種類型的變量 用以下公式計算對象i j之間的相異度 其中 p為對象中的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 茶葉采摘與加工茶園租賃合作協(xié)議
- 塌陷區(qū)治理改造方案
- 醫(yī)學考試題試題及答案
- 嵌入式管理面試題及答案
- 前臺走廊物資采購方案
- 投資集團面試題及答案
- 企業(yè)重點目標分解方案
- 差旅住宿品質(zhì)保障與客戶評價反饋合同
- 小區(qū)上水改造項目方案
- 食品安全員專業(yè)能力培訓大綱
- 廣西壯族自治區(qū)柳州市2025年七年級下學期期末數(shù)學試卷及答案
- 建設單位建設管理
- 2025年云南昆明事業(yè)單位招聘考試綜合類專業(yè)能力測試試卷(財務類)
- 包銷公司避稅協(xié)議書
- 2024年寧夏回族自治區(qū)文化和旅游廳下屬事業(yè)單位考試真題
- 《康復護理溝通技巧》課件
- 《2025年CSCO腎癌診療指南》解讀課件
- 大眾健美操二級圖解
- 《張心怡教授》課件
- 《抗炎成分姜黃素》課件
- 金屬玩具產(chǎn)業(yè)人才培養(yǎng)-全面剖析
評論
0/150
提交評論