畢業(yè)設(shè)計(jì)論文基于關(guān)聯(lián)分析的Web日志挖掘_第1頁(yè)
畢業(yè)設(shè)計(jì)論文基于關(guān)聯(lián)分析的Web日志挖掘_第2頁(yè)
畢業(yè)設(shè)計(jì)論文基于關(guān)聯(lián)分析的Web日志挖掘_第3頁(yè)
畢業(yè)設(shè)計(jì)論文基于關(guān)聯(lián)分析的Web日志挖掘_第4頁(yè)
畢業(yè)設(shè)計(jì)論文基于關(guān)聯(lián)分析的Web日志挖掘_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、目 錄摘要1關(guān)鍵詞1Abstract1Keywords1一、Web日志挖掘2(一)、數(shù)據(jù)預(yù)處理2(二)、模式發(fā)現(xiàn)4(三)、模式分析5二、關(guān)聯(lián)分析5(一)關(guān)聯(lián)規(guī)則5(二)Apriori方法簡(jiǎn)介7四、實(shí)證分析8(一)數(shù)據(jù)預(yù)處理8(二)模式發(fā)現(xiàn)9(三)模式分析10五、個(gè)性化推薦11六 、結(jié)束語(yǔ)12參考文獻(xiàn)13附錄15基于關(guān)聯(lián)分析的Web日志挖掘摘要:web日志挖掘是web數(shù)據(jù)挖掘中的一個(gè)重要組成部分,通過(guò)從Web訪(fǎng)問(wèn)日志中發(fā)現(xiàn)用戶(hù)的訪(fǎng)問(wèn)模式,預(yù)測(cè)用戶(hù)的瀏覽行為。本文主要介紹了web數(shù)據(jù)挖掘的一般過(guò)程及方法,對(duì)Apriori關(guān)聯(lián)分析方法作了重點(diǎn)闡述,并利用該方法對(duì)某網(wǎng)站某天的部分web日志數(shù)據(jù)進(jìn)行了實(shí)

2、證分析,得出了用戶(hù)瀏覽模式及網(wǎng)頁(yè)內(nèi)容之間的關(guān)聯(lián)規(guī)則,找到單個(gè)用戶(hù)在瀏覽頁(yè)面興趣愛(ài)好以及群體用戶(hù)的瀏覽習(xí)慣,繼而對(duì)網(wǎng)站的網(wǎng)頁(yè)規(guī)劃布局提出了個(gè)性化的意見(jiàn)。關(guān)鍵詞:web日志挖掘;關(guān)聯(lián)分析;實(shí)證分析 Web Log Mining Based On Association AnalysisAbstract: Web log mining is an important part of web data mining, finding the user's access pattern in the Web access logs ,the researcher can predict

3、 the user's browsing behavior. This essay introduces the method of Association analysis in Web log mining,espacally the method of Apriori, at the same time ,we use this method to analysis a particular sites log data to find the users browsing patterns and association rules between web pages

4、 ;It also finds the browsing interest of a single user and groups users browsing habits, all after then ,we put forward some individual suggestions on web planning.Keywords: Web log mining; Association analysis; Positive analysis隨著WWW在深度和廣度上的發(fā)展,Internet也前所未有地改變著我們的生活,數(shù)據(jù)信息已經(jīng)在這個(gè)時(shí)代爆炸了。但是,我們又不得不面對(duì)“人們被數(shù)據(jù)

5、淹沒(méi),人們卻饑餓于知識(shí)”的現(xiàn)實(shí)。隨著興起與20世紀(jì)80年代末的數(shù)據(jù)挖掘在web上的應(yīng)用,從某種程度上改善了上述情況。根據(jù)所挖掘的Web 數(shù)據(jù)的類(lèi)型,可以將Web 數(shù)據(jù)挖掘分為以下三類(lèi):Web 內(nèi)容挖掘(Web Content Mining)、Web 結(jié)構(gòu)挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)(也稱(chēng)為Web日志挖掘)。Web日志挖掘是指采用數(shù)據(jù)挖掘的技術(shù),通過(guò)對(duì)Web服務(wù)器日志中大量的用戶(hù)訪(fǎng)問(wèn)記錄深入分析,發(fā)現(xiàn)用戶(hù)的訪(fǎng)問(wèn)模式和興趣愛(ài)好等有趣、新穎、潛在有用的以及可理解的未知信息和知識(shí),用于分析站點(diǎn)的使用情況,從而輔助管理和支持決策。

6、當(dāng)前,web日志挖掘主要被用于個(gè)性化服務(wù)與定制、改進(jìn)系統(tǒng)性能和結(jié)構(gòu)、站點(diǎn)修改、商業(yè)智能以及web特征描述等諸多領(lǐng)域。一、Web日志挖掘Web日志挖掘主要是通過(guò)對(duì)web瀏覽的日志數(shù)據(jù)的分析,發(fā)現(xiàn)用戶(hù)的瀏覽模式,更好地規(guī)劃站點(diǎn)。下面是一段日志: 2006-10-17 00:00:00 4 80 GET /favicon.ico Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:。主要包括:訪(fǎng)問(wèn)時(shí)間;用戶(hù)IP地址;訪(fǎng)問(wèn)的URL,端口;請(qǐng)求方法(“GET”、“POST”等);訪(fǎng)問(wèn)模式;agent,即用戶(hù)使用的操作系統(tǒng)類(lèi)型和瀏覽

7、器軟件。Web日志挖掘一般都包含以下幾個(gè)過(guò)程:(一)數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是Web 日志挖掘的首要環(huán)節(jié), 其任務(wù)是將原始日志數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘和模式發(fā)現(xiàn)所必需的格式, 預(yù)處理可以直接簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程,使結(jié)果更具客觀性。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)凈化、用戶(hù)識(shí)別、會(huì)話(huà)識(shí)別、路徑補(bǔ)充四個(gè)步驟。1數(shù)據(jù)凈化數(shù)據(jù)凈化, 是指將待處理的日志數(shù)據(jù)導(dǎo)入到關(guān)系數(shù)據(jù)庫(kù),刪除Web日志數(shù)據(jù)中的錯(cuò)誤值、缺失值等,同時(shí)把與Web數(shù)據(jù)挖掘無(wú)關(guān)的變量或數(shù)據(jù)進(jìn)行清理,已達(dá)到簡(jiǎn)便運(yùn)算的目的;2.用戶(hù)識(shí)別用戶(hù)識(shí)別, 是從Web日志數(shù)據(jù)中找出每個(gè)用戶(hù)的訪(fǎng)問(wèn)地址,避免挖掘的重復(fù)性。目前, 由于本地緩存、代理服務(wù)器和防火墻的存在, 為用戶(hù)動(dòng)態(tài)

8、的分配IP 地址, 想要識(shí)別出每一個(gè)用戶(hù)變得很復(fù)雜??梢酝ㄟ^(guò)以下 3 種方法來(lái)識(shí)別用戶(hù):( 1) 如果Web 服務(wù)器提供Cookie , 則具有相同Cookie 值的頁(yè)面請(qǐng)求是來(lái)自同一個(gè)用戶(hù);( 2) 如果Web 服務(wù)器沒(méi)有提供Cookie , 但每個(gè)網(wǎng)站用戶(hù)都要一個(gè)登錄標(biāo)識(shí)符( 用戶(hù)ID) 方可訪(fǎng)問(wèn)站點(diǎn), 則利用登錄標(biāo)識(shí)符識(shí)別用戶(hù);( 3) 如果Web 服務(wù)器既沒(méi)有Cookie 也沒(méi)有用戶(hù)ID,最常用的方法就是采用啟發(fā)式規(guī)則。根據(jù)我們的日志格式采用兩條啟發(fā)式規(guī)則:不同的IP地址代表不同的用戶(hù); 如果IP地址相同,但是操作系統(tǒng)類(lèi)型或者瀏覽器軟件不同我們認(rèn)為是不同的用戶(hù)。3.會(huì)話(huà)識(shí)別會(huì)話(huà), 是指

9、同一個(gè)用戶(hù)連續(xù)請(qǐng)求的頁(yè)面。在跨越時(shí)間區(qū)段較大的Web 服務(wù)器日志中, 用戶(hù)可能多次訪(fǎng)問(wèn)該站點(diǎn)。會(huì)話(huà)識(shí)別的目的是將用戶(hù)的所有訪(fǎng)問(wèn)序列分成單個(gè)的訪(fǎng)問(wèn)序列。常用的算法有以下幾種:(1)對(duì)用戶(hù)在整個(gè)網(wǎng)站的停留時(shí)間設(shè)一個(gè)閾值T。如果兩個(gè)相鄰的瀏覽頁(yè)面之間的訪(fǎng)問(wèn)時(shí)間超過(guò)T, 則認(rèn)為用戶(hù)又開(kāi)始了一個(gè)新的會(huì)話(huà)。一般T取30min。(2)對(duì)用戶(hù)在一個(gè)頁(yè)面停留時(shí)間設(shè)一個(gè)域值t。如果2 個(gè)連續(xù)請(qǐng)求的時(shí)間間隔沒(méi)有超過(guò)這個(gè)值t, 則屬于同一會(huì)話(huà)。否則, 分屬于兩個(gè)會(huì)話(huà)。t 一般取10min。(3)利用用戶(hù)的訪(fǎng)問(wèn)歷史和引用頁(yè)來(lái)劃分。如果一個(gè)用戶(hù)的請(qǐng)求不能通過(guò)引用頁(yè)的鏈接進(jìn)入, 則屬于另一個(gè)會(huì)話(huà)。(4)最大向前引用算法(

10、MF) 。設(shè)一個(gè)用戶(hù)會(huì)話(huà)里不會(huì)出現(xiàn)用戶(hù)以前已經(jīng)訪(fǎng)問(wèn)過(guò)的頁(yè)面, 如果用戶(hù)在向前瀏覽到一個(gè)網(wǎng)4. 路徑補(bǔ)充用戶(hù)會(huì)話(huà)對(duì)數(shù)據(jù)挖掘來(lái)講,顯得粗糙,仍不夠精確,需把會(huì)話(huà)進(jìn)一步分成具有一定語(yǔ)意的事務(wù),如同籃子數(shù)據(jù)中顧客一次購(gòu)買(mǎi)的商品。可以把Web頁(yè)簡(jiǎn)單地分為兩類(lèi):內(nèi)容頁(yè)和導(dǎo)航頁(yè)。在編程中采用的區(qū)分導(dǎo)航頁(yè)和內(nèi)容頁(yè)的方法是時(shí)間點(diǎn)法,即設(shè)定一時(shí)間值,實(shí)際中時(shí)間點(diǎn)的取值為30秒。當(dāng)用戶(hù)對(duì)該網(wǎng)頁(yè)訪(fǎng)問(wèn)的時(shí)間小于時(shí)間點(diǎn)為導(dǎo)航頁(yè),大于時(shí)間點(diǎn)則為內(nèi)容頁(yè)。用戶(hù)對(duì)網(wǎng)頁(yè)的訪(fǎng)問(wèn)時(shí)間為用戶(hù)前后兩次訪(fǎng)問(wèn)該網(wǎng)頁(yè)的時(shí)間差,通過(guò)調(diào)用SQL語(yǔ)句可以查找到用戶(hù)訪(fǎng)問(wèn)網(wǎng)頁(yè)的時(shí)間,進(jìn)而區(qū)分出導(dǎo)航頁(yè)和內(nèi)容頁(yè)。(二)模式發(fā)現(xiàn)模式發(fā)現(xiàn), 是對(duì)預(yù)處理后的數(shù)據(jù)用

11、數(shù)據(jù)挖掘算法來(lái)分析數(shù)據(jù)。分有統(tǒng)計(jì)、分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則、路徑分析等多種方法。(1)統(tǒng)計(jì)。統(tǒng)計(jì)方法是從Web 站點(diǎn)中抽取知識(shí)的最常用方法, 它通過(guò)分析會(huì)話(huà)文件, 對(duì)瀏覽時(shí)間、瀏覽路徑等進(jìn)行頻度、平均值等統(tǒng)計(jì)分析。雖然缺乏深度, 但仍可用于改進(jìn)網(wǎng)站結(jié)構(gòu), 增強(qiáng)系統(tǒng)安全性, 提高網(wǎng)站訪(fǎng)問(wèn)的效率等。(2)分類(lèi)。分類(lèi)包括的挖掘技術(shù)將找出定義了一個(gè)項(xiàng)或事件是否屬于數(shù)據(jù)中某特定子集或類(lèi)的規(guī)則。該類(lèi)技術(shù)是最廣泛應(yīng)用于各類(lèi)業(yè)務(wù)問(wèn)題的一類(lèi)挖掘技術(shù)。分類(lèi)算法最知名的是決策樹(shù)方法,此外還有神經(jīng)元網(wǎng)絡(luò)、Bayesian分類(lèi)等。(3)聚類(lèi)。聚類(lèi)是將數(shù)據(jù)集劃分為多個(gè)類(lèi),使得在同一類(lèi)中的數(shù)據(jù)之間有較高的相似度,而在不同類(lèi)中的

12、數(shù)據(jù)差別盡可能大。在聚類(lèi)技術(shù)中,沒(méi)有預(yù)先定義好的類(lèi)別和訓(xùn)練樣本存在,所有記錄都根據(jù)彼此相似程度來(lái)加以歸類(lèi)。主要算法有kmeans、DBSCAN等。(4)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,自動(dòng)探測(cè)以前未發(fā)現(xiàn)的隱藏著的模式,關(guān)聯(lián)分析經(jīng)常被表達(dá)為規(guī)則的形式。目前采用的主要關(guān)聯(lián)規(guī)則挖掘算法有Apriori、FP-growth算法等。(5)路徑分析。路徑分析可以用來(lái)確定網(wǎng)站上的頻繁訪(fǎng)問(wèn)路徑, 從而調(diào)整和優(yōu)化網(wǎng)站結(jié)構(gòu), 使得用戶(hù)訪(fǎng)問(wèn)所需網(wǎng)頁(yè)更加簡(jiǎn)單快捷, 還可以根據(jù)用戶(hù)典型的瀏覽模式用于智能推薦和有針對(duì)性的電子商務(wù)活動(dòng)。(三)模式分析基于以上的所有過(guò)程,對(duì)原始數(shù)據(jù)進(jìn)行進(jìn)一步分析,找出用

13、戶(hù)的瀏覽模式規(guī)律,即用戶(hù)的興趣愛(ài)好及習(xí)慣,并使其可視化,為網(wǎng)頁(yè)的規(guī)劃及網(wǎng)站建設(shè)的決策提供具體理論依據(jù)。其主要方法有:查詢(xún)、OLAP 技術(shù)和可視化技術(shù)等。二、關(guān)聯(lián)分析(一)關(guān)聯(lián)規(guī)則顧名思義,關(guān)聯(lián)規(guī)則(association rule)挖掘技術(shù)用于于發(fā)現(xiàn)數(shù)據(jù)庫(kù)中屬性之間的有趣聯(lián)系。設(shè)交易(transaction) 的集合,這里交易是項(xiàng)的集合,可以表述為:并且。中的元素稱(chēng)為項(xiàng)。對(duì)應(yīng)每一個(gè)交易有唯一的標(biāo)識(shí),如交易號(hào),記作。設(shè)是數(shù)據(jù)集中所有項(xiàng)的集合,是二進(jìn)制文字的集合。中的任何子集稱(chēng)為項(xiàng)目集(itemset),若,則稱(chēng)集合為項(xiàng)集。設(shè)和分別為中的事務(wù)和項(xiàng)目集,如果,稱(chēng)事務(wù)包含項(xiàng)目集。項(xiàng)目集的支持率,若不小

14、于用戶(hù)指定的最小支持率(記作:minsupport),則稱(chēng)為頻繁項(xiàng)目集,否則稱(chēng)為非頻繁項(xiàng)目集。設(shè),是數(shù)據(jù)集中的項(xiàng)目集。若,則;若,如果是非頻繁項(xiàng)目集,則也是非頻繁項(xiàng)目集;若,如果是頻繁項(xiàng)目集,則也是頻繁項(xiàng)目集。一個(gè)關(guān)聯(lián)規(guī)則是形如的蘊(yùn)涵式,這里,都是項(xiàng)目集,且,并且,分別稱(chēng)為關(guān)聯(lián)規(guī)則的前提和結(jié)論。一般使用支持度(support)和置信度(confidence)兩個(gè)參數(shù)來(lái)描述關(guān)聯(lián)規(guī)則的屬性。 1.支持度規(guī)則在數(shù)據(jù)庫(kù)中的支持度是交易集中同時(shí)包含, 的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為 。支持度描述了,這兩個(gè)項(xiàng)集在所有事務(wù)中同時(shí)出現(xiàn)的概率。2置信度規(guī)則在事務(wù)集中的置信度(confidence)是指同時(shí)包含,

15、的事務(wù)數(shù)與包含的事務(wù)數(shù)之比,它用來(lái)衡量關(guān)聯(lián)規(guī)則的可信程度。記為規(guī)則 A Þ C:支持度 = support(AÈC) = 50%置信度 = support(AÈC)/support(A) = 66.6%Transaction-idItems bought10A, B, C20A, C30A,D40B,E,FFrequent patternSupportA75%B50%C50%A,C50%圖1:支持度計(jì)算圖解(二)Apriori方法簡(jiǎn)介Apriori算法最先是由Agrawal等人于1993年提出的,它的基本思想是:首先找出所有具有超出最小支持度的支持度項(xiàng)集,用頻繁的

16、(k1)-項(xiàng)集生成候選的頻繁k-項(xiàng)集;其次利用大項(xiàng)集產(chǎn)生所需的規(guī)則;任何頻繁項(xiàng)集的所有子集一定是頻繁項(xiàng)集是其核心。Apriori算法需要兩個(gè)步驟:第一個(gè)是生成條目集;第二個(gè)是使用生成的條目集創(chuàng)建一組關(guān)聯(lián)規(guī)則。1.算法偽代碼Ck: 長(zhǎng)度為 k的候選項(xiàng)集Lk : 長(zhǎng)度為k的頻繁項(xiàng)集L1 = 頻繁項(xiàng);for (k = 1; Lk !=Æ k+) do begin Ck+1 = 由 Lk產(chǎn)生的候選; for each 數(shù)據(jù)庫(kù)中的事務(wù) t do 增加包含在t 中的所有候選Ck+1的計(jì)數(shù) Lk+1 = Ck+1 中滿(mǎn)足 min_support的候選數(shù)據(jù)庫(kù)TDBTIDItems10A, C, D2

17、0B, C, E30A, B, C, E40B, EItemsetSupA2B3C3D1E3第一次掃描C1ItemsetSupA2B3C3E3L1ItemsetABACAEBCBECEC2第二次掃描ItemsetSupAB1AC2AE1BC2BE3CE2C2ItemsetSupAC2BC2BE3CE2ItemsetBCEC3第三次掃描L3L2ItemsetSupBCE2圖2:Apriori算法圖解三、實(shí)證分析本數(shù)據(jù)來(lái)源為某網(wǎng)站某天的全部Web日志數(shù)據(jù)。(一)數(shù)據(jù)預(yù)處理由于Web日志數(shù)據(jù)時(shí)一個(gè)非常龐大的數(shù)據(jù)集體,因此選用數(shù)據(jù)庫(kù)作為分析工具,將原始數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù),取出前10000行日志數(shù)據(jù),處理如

18、下:1.數(shù)據(jù)凈化:存在缺失值的整行->刪除,訪(fǎng)問(wèn)方式除GET、POST、OPTIONS以外的整行->刪除;2. 用戶(hù)識(shí)別:由于數(shù)據(jù)中不存在IP地址相同,但是操作系統(tǒng)類(lèi)型或者瀏覽器軟件不同的情況,從而認(rèn)為不同的IP地址代表不同的用戶(hù);3.會(huì)話(huà)識(shí)別、及路徑補(bǔ)充:用戶(hù)會(huì)話(huà)被定義為用戶(hù)在對(duì)網(wǎng)站的一次訪(fǎng)問(wèn)過(guò)程中所請(qǐng)求的URL的集合,若某一用戶(hù)發(fā)出連續(xù)兩個(gè)URL的請(qǐng)求的時(shí)間差不超過(guò)規(guī)定的時(shí)間閾值,則這兩次請(qǐng)求被劃分在同一用戶(hù)會(huì)話(huà)中,否則分別屬于兩個(gè)不同的用戶(hù)會(huì)話(huà),對(duì)與本數(shù)據(jù), 時(shí)間閾值設(shè)為30分鐘。(二)模式發(fā)現(xiàn)1.描述性統(tǒng)計(jì)對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,得出以下描述性統(tǒng)計(jì):總用戶(hù)數(shù):1469總鏈接數(shù):

19、146TOP10訪(fǎng)問(wèn)頁(yè)面: /new/clubmain/newimg/num3.gif, 1066;/new/clubmain/newimg/num1.gif, 1056;/new/clubmain/newimg/num4.gif,1052;/new/clubmain/newimg/num2.gif,1010;/newimg/num3.gif;873;/newimg/num1.gif,863;/newimg/num2.gif,854;/newimg/num4.gif,853;/default.asp,453;/new/publicforum/content.asp,329.2. Apriori

20、關(guān)聯(lián)分析(1)生成數(shù)據(jù)庫(kù)集從描述性統(tǒng)計(jì)中得到的不同用戶(hù)作為數(shù)據(jù)庫(kù)集的行自變量,不同的鏈接作為列自變量;當(dāng)用戶(hù)i瀏覽過(guò)鏈接j,則其對(duì)應(yīng)項(xiàng)=1,否則=0;設(shè)置相應(yīng)的覆蓋要求,這樣我們可以同時(shí)得到單項(xiàng)集合。(2)生成關(guān)聯(lián)規(guī)則從單項(xiàng)集合中,生成可能的雙項(xiàng)集合規(guī)則,分別計(jì)算置信度。(3)結(jié)果部分見(jiàn)表1:關(guān)聯(lián)度計(jì)算結(jié)果表(三)模式分析 當(dāng)我們把最小置信度設(shè)為85%,通過(guò)關(guān)聯(lián)規(guī)則的形成以及對(duì)應(yīng)置信度的計(jì)算,我們可以從中得到以下有用的信息:1.置信度大于最小置信度時(shí):我們可以這樣認(rèn)為,用戶(hù)群體在瀏覽相關(guān)網(wǎng)頁(yè)時(shí),所呈列的鏈接之間是有很大關(guān)聯(lián)的,他們是用戶(hù)群的共同愛(ài)好,通過(guò)網(wǎng)頁(yè)布局的調(diào)整,從某種意義上,可以帶來(lái)更

21、高的點(diǎn)擊率及潛在客戶(hù);2.置信度小于最小置信度時(shí):我們可以這樣認(rèn)為,用戶(hù)群體對(duì)所呈列鏈接之間沒(méi)太多的關(guān)聯(lián),亦或關(guān)聯(lián)規(guī)則中的鏈接在爭(zhēng)奪用戶(hù)。表1:關(guān)聯(lián)度計(jì)算結(jié)果表關(guān)聯(lián)度關(guān)聯(lián)數(shù)分母數(shù)分子分母0.907692118130/newimg/num4.gif/newimg/num1.gif0.887218118133/newimg/num1.gif/newimg/num4.gif0.883721114129/newimg/num4.gif/newimg/num3.gif0.875112128/newimg/num1.gif/newimg/num2.gif0.875112128/newimg/num3.gi

22、f/newimg/num2.gif0.875112128/newimg/num4.gif/newimg/num2.gif0.868217112129/newimg/num2.gif/newimg/num3.gif0.861538112130/newimg/num2.gif/newimg/num1.gif0.857143114133/newimg/num3.gif/newimg/num4.gif0.854749153179/new/clubmain/newimg/num2.gif/new/clubmain/newimg/num4.gif0.844961109129/newimg/num1.gif

23、/newimg/num3.gif0.842105112133/newimg/num2.gif/newimg/num4.gif0.840659153182/new/clubmain/newimg/num4.gif/new/clubmain/newimg/num2.gif0.838462109130/newimg/num3.gif/newimg/num1.gif0.826816148179/new/clubmain/newimg/num1.gif/new/clubmain/newimg/num4.gif0.825843147178/new/clubmain/newimg/num4.gif/new/

24、clubmain/newimg/num3.gif0.821229147179/new/clubmain/newimg/num3.gif/new/clubmain/newimg/num4.gif0.820225146178/new/clubmain/newimg/num2.gif/new/clubmain/newimg/num3.gif0.81768148181/new/clubmain/newimg/num4.gif/new/clubmain/newimg/num1.gif0.802198146182/new/clubmain/newimg/num3.gif/new/clubmain/newi

25、mg/num2.gif0.801105145181/new/clubmain/newimg/num2.gif/new/clubmain/newimg/num1.gif0.797753142178/new/clubmain/newimg/num1.gif/new/clubmain/newimg/num3.gif0.796703145182/new/clubmain/newimg/num1.gif/new/clubmain/newimg/num2.gif0.78453142181/new/clubmain/newimg/num3.gif/new/clubmain/newimg/num1.gif0.

26、31491757181/refresh_new.asp/new/clubmain/newimg/num1.gif(算法詳見(jiàn)附錄)四、個(gè)性化推薦通過(guò)以上的關(guān)聯(lián)分析,有了用戶(hù)頻繁訪(fǎng)問(wèn)路徑和鏈接之間的興趣度,可以構(gòu)建個(gè)性化推薦系統(tǒng)模型。對(duì)于以上的實(shí)證例子,我們可以在置信度高于最低置信度的相關(guān)鏈接之間,建立某種信息快速互聯(lián)的橋梁,亦或是在網(wǎng)頁(yè)規(guī)劃中,充分考慮鏈接之間的關(guān)聯(lián)關(guān)系,從而為更人性化、合理化的網(wǎng)頁(yè)設(shè)計(jì)提供決策依據(jù)。如:當(dāng)客戶(hù)瀏覽/newimg/num1.gif時(shí),有0.91的概率會(huì)瀏覽/newimg/num4.gif,那么,在兩者之間就存在很高的關(guān)聯(lián)性,從而我們有必要對(duì)這兩個(gè)鏈接建立某種跟緊密

27、的聯(lián)系。五 、結(jié)束語(yǔ)本文先研究了web日志挖掘當(dāng)前研究成果,介紹了web日志挖掘的基本流程,然后著重介紹了如何利用Apririo關(guān)聯(lián)規(guī)則算法來(lái)挖掘出用戶(hù)頻繁訪(fǎng)問(wèn)模式,找出瀏覽頁(yè)面之間的關(guān)聯(lián)規(guī)則,為個(gè)性化推薦系統(tǒng)模型提供了依據(jù)。Web 日志挖掘作為Web數(shù)據(jù)挖掘的嶄新研究方向,今年來(lái)已經(jīng)取得了一些突破性的進(jìn)展, 但是由于Web 的不確定性和多樣性,以及Web的不斷壯大,還有很多問(wèn)題亟待解決, 有待于我們進(jìn)一步去研究和探索。參考文獻(xiàn)1李國(guó)慧.Web數(shù)據(jù)挖掘研究.數(shù)據(jù)庫(kù)與信息管理本,2008年1月12日2. 王玉珍.Web數(shù)據(jù)挖掘的分析與探索 J .電腦開(kāi)發(fā)與應(yīng)用 2003年4月3張莉.基于模糊聚類(lèi)

28、的案例聚類(lèi)算法研究.教育與教學(xué)研究,2009年4月第四期4蘇晶.web數(shù)據(jù)挖掘的技術(shù)研究.中國(guó)新技術(shù)新產(chǎn)品,2008 NO.12(上) 5葉苗群.web日志挖掘研究.寧波工程學(xué)院學(xué)報(bào),2005年6月6郭欣,許林英.改進(jìn)的關(guān)聯(lián)的關(guān)聯(lián)規(guī)則算法在電子商務(wù)中的應(yīng)用.微機(jī)處理, 2008年10月5期7Richard J.Roiger, Michael W.Geatz.數(shù)據(jù)挖掘教程M.清華大學(xué)出版社,2003版 8. 高哲,魏海平,王福威,趙曉碧.基于Web日志挖掘的Web文檔聚類(lèi).計(jì)算機(jī)工程與設(shè)計(jì),2008年9月9.王麗娜,Web 日志挖掘技術(shù)研究,光盤(pán)技術(shù),2008年第4期10.張健沛,劉建東等.基于Web的日志挖掘數(shù)據(jù)預(yù)處理方法的研究J.計(jì)算機(jī)工程與應(yīng)用,2003.10.11.徐章艷,劉美玲,張師超等.Apriori算法的三種優(yōu)化方法J.計(jì)算機(jī)工程與應(yīng)用,2004,25(2):19019212. 李珊,袁方.基于Web日志挖掘的頁(yè)面興趣度方法的改進(jìn).計(jì)算機(jī)時(shí)代,2007年第3期13. Ellen SpeausMining structural information on the webIn:Proceed

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論