




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1關聯規(guī)則2023/2/2一、關聯規(guī)則的定義2關聯規(guī)則一般用以發(fā)現事務數據庫中不同商品(項)之間的聯系,用這些規(guī)則找出顧客的購買行為模式。這種規(guī)則可以應用于超市商品貨架設計、貨物擺放以及根據購買模式對用戶進行分類。2023/2/23二、關聯規(guī)則:基本概念(一)支持度與置信度AA∩BB買尿布的客戶二者都買的客戶買啤酒的客戶2023/2/2置信度confidence(.):是指購物籃分析中有了左邊商品,同時又有右邊商品的交易次數百分比,也就是說在所有的購買了左邊商品的交易中,同時又購買了右邊商品的交易概率。
41、置信度2023/2/22、支持度支持度sup(.):表示在購物籃分析中同時包含關聯規(guī)則左右兩邊物品的交易次數百分比,即支持這個規(guī)則的交易的次數百分比。52023/2/2例:6對于規(guī)則ACsupport=support({A,
C})=50%confidence=support({A,
C})/support({A})=66.6%2023/2/2交易項目成交次數夾克,球鞋300滑雪衫,球鞋100夾克,滑雪衫,球鞋100球鞋50慢跑鞋40夾克,慢跑鞋100滑雪衫,慢跑鞋200襯衣10夾克40滑雪衫60合計10007表1運動鞋Y1單獨購買合計球鞋Y11慢跑鞋Y12上衣X襯衣X11010外套X2夾克X2140010040540滑雪衫X2220020060460單獨購買5040合計65034010008表2規(guī)則“夾克→球鞋”的計算92023/2/2運動鞋Y1單獨購買合計球鞋Y11慢跑鞋Y12上衣X襯衣X11010外套X2夾克X211001滑雪衫X2218980899單獨購買090090合計298810100010表3存在的問題:111.高置信度,低支持度:夾克球鞋”的置信度高達100%,但因為只有一人買了球鞋,這條關聯規(guī)則支持度只有千分之一。2.支持度、置信度都比較高,但幾乎是沒有作用的規(guī)則?!百I方便面則買牛奶”,“買牙刷則買牛奶”,“喜歡野外休閑則會買牛奶”。2023/2/2121、關聯規(guī)則的分類二、關聯規(guī)則的分類與作用2023/2/2布爾型關聯規(guī)則與數值型關聯規(guī)則布爾型關聯規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關系;數值型關聯規(guī)則可以和多維關聯或多層關聯規(guī)則結合起來,對數值型字段進行處理,將其進行動態(tài)的分割,或者直接對原始的數據進行處理,當然數值型關聯規(guī)則中也可以包含種類變量。2023/2/213如果關聯規(guī)則中的項或屬性每個只涉及一個維,則它是單維關聯規(guī)則;反之,為多維關聯規(guī)則。如,計算機→財務軟件;年齡30~39歲、月收入4000元以上→高清電視如果在給定的規(guī)則集中,規(guī)則不涉及不同抽象層的項或屬性,就稱單層關聯規(guī)則;反之,稱多層。142023/2/22、關聯規(guī)則的作用15購物籃分析:關聯規(guī)則就是要找出哪些產品總是會同時出現在客戶的購物籃中。商品擺放,基于商店不同的經營理念,如果將會經常一起購買的東西較近擺放,客戶會比較方便購買,如果有意放在購物通道的兩端,顧客尋找的過程中可以增加其他物品銷售的可能性。關聯規(guī)則可以處理所謂的匿名消費。(一張發(fā)票就是一個購物籃——與決策樹和類神經網絡不同。)關聯規(guī)則與時序規(guī)則相結合(不能匿名,適合會員制)。先找出來哪些事務總是同時發(fā)生的關聯規(guī)則,再加入時間的因素,找出哪些事務總是會先后發(fā)生的潛在規(guī)律。2023/2/2另外,只有同一個購物籃的商品信息能夠分析的項目也很有限,因此,可以將氣象資訊(溫度、濕度、降雨)等轉換為虛擬的商品項目,并入到購物籃中進行關聯規(guī)則的分析。如,日本7-11相當著名的“七五三”規(guī)則。即是說如果一天當中溫度相差7度、今天和昨天的溫度差到5度、濕度差大于30%的話,代表感冒的人會增加,藥店就要考慮把感冒藥、溫度計和口罩之類的用品上架。162023/2/2三、
關聯規(guī)則的挖掘172023/2/2(一)關聯規(guī)則挖掘的步驟第一步:找出所有頻繁項集:根據定義,這些項集出現的頻繁性(支持度)至少和預定義的最小支持度一樣。第二步:由頻繁項集產生強關聯規(guī)則:根據定義,這些規(guī)則必須滿足最小支持度和最小置信度。182023/2/219對于一個給定的候選數據集,項集的數目呈指數增長。2023/2/2(二)Apriori演算法關聯規(guī)則計算雖然容易但由于規(guī)則太多容易形成“組合爆炸”,因此,需要對這些規(guī)則進行篩選,篩選需要的統計量如下:最小支持度:規(guī)則必須符合的最小支持度閥值。最小置信度:計算規(guī)則所必須符合的最低置信度閥值。如果關聯規(guī)則滿足最小支持度和最小置信度,可以說該規(guī)則是有趣的。202023/2/21、算法所需要的前置統計量:2、頻繁項集項的集合稱為項集(itemset)包含k個項的項集稱為k-項集。集合{計算機,金融管理軟件}就是一個2-項集。項集出現頻數是包含項集的事務數,簡稱為項集的頻數、支持計數或計數。212023/2/2如果項集滿足最小支持度或滿足min_sup與數據庫中事務總數的乘積(即最小支持計數),則稱它為頻繁項集(frequentitemset)。頻繁k-項集的集合通常記作Lk。2023/2/22223對于A
C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%最小支持度50%最小可信度50%例:2023/2/24、Apriori算法:使用候選項集找頻繁項集Apriori算法是一種最有影響的挖掘布爾關聯規(guī)則頻繁項集的算法。算法的名字基于這樣的事實:算法使用頻繁項集性質的先驗知識。它使用一種稱作逐層搜索的迭代方法,k-項集用于探索(k+1)-項集。首先,找出頻繁1-項集的集合。該集合記作L1。L1用于找頻繁2-項集的集合L2,而L2用于找L3,如此下去,直到不能找到頻繁k-項集。找每個Lk需要一次數據庫掃描。242023/2/2例125數據庫D掃描DC1L1L2C2C2掃描DC3L3掃描D2023/2/2為什么只有一項?26例:L3={abc,abd,acd,ace,bcd}連接:L3*L3abcdfromabcandabdacdefromacdandace修剪:acdeisremovedbecauseadeisnotinL3C4={abcd}2023/2/2Apriori——剪枝頻繁項集的任何子集也一定是頻繁的。例3:273、Apriori算法的實現過程282023/2/24、由頻繁項集產生關聯規(guī)則一旦找出頻繁項集,再通過最小置信度產生關聯規(guī)則。關聯規(guī)則的產生步驟如下:對于每個頻繁項集l,產生l的所有非空子集。對于l的每個非空子集s,如果則輸出規(guī)則“s→(l-s)”。292023/2/2以例3為例,看其中一個頻繁項集l={I1,I2,I5},可以由l產生哪些關聯規(guī)則?l的非空子集有{I1,I2}{I1,I5}{I2,I5}{I1}{I2}{I5}。結果關聯規(guī)則如下,每個都列出了置信度。如果最小置信度閥值為70%,則只有第2、3和最后一個規(guī)則可以輸出。302023/2/2真正可取的規(guī)則具備的條件31并非所有的規(guī)則在符合閥值限制后都是有意義的,這樣的規(guī)則還分為:有用的規(guī)則:包含高品質的有效情報常識無法解釋的結果關聯規(guī)則真正可取的是具備以下兩個條件的規(guī)則:人們常識之外、意料之外的關聯該規(guī)則必須具有潛在的作用2023/2/25、案例2023/2/2322023/2/23334Apriori算法的核心:用頻繁的(k–1)-項集生成候選的頻繁k-項集用數據庫掃描和模式匹配計算候選集的支持度Apriori的瓶頸:候選集生成巨大的候選集:104個頻繁1-項集要生成107個候選2-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025智能產品購銷合同范本
- 綠色出行創(chuàng)建行動考核評價標準
- 新質生產力之新
- 2025電纜買賣合同范本
- 小學三年級數學教案《噸的認識》教學設計
- 頸靜脈球體瘤綜合征的臨床護理
- 《疲勞強度研究》課件
- 沈陽市高中生物試卷及答案
- 上岡實中九年級試卷及答案
- 肇慶市實驗中學高中歷史二:第五單元練習題評講教案
- 2023年新改版教科版四年級下冊科學練習題(一課一練+單元+期中+期末)
- GB/T 10228-2023干式電力變壓器技術參數和要求
- 基于STM32的停車場智能管理系統
- 超市商品分類明細表
- 2023年北京市石景山區(qū)八角街道社區(qū)工作者招聘筆試題庫及答案解析
- 完整解讀中華人民共和國政府信息公開條例課件
- RB/T 109-2013能源管理體系人造板及木制品企業(yè)認證要求
- GB/T 16895.2-2017低壓電氣裝置第4-42部分:安全防護熱效應保護
- 法人治理主體“1+3”權責表
- 小學科學《螞蟻》優(yōu)質課件
- 幼兒園中班語言繪本《章魚先生賣雨傘》課件
評論
0/150
提交評論