協(xié)同過(guò)濾中基于用戶(hù)的相似度計(jì)算方法研究_第1頁(yè)
協(xié)同過(guò)濾中基于用戶(hù)的相似度計(jì)算方法研究_第2頁(yè)
協(xié)同過(guò)濾中基于用戶(hù)的相似度計(jì)算方法研究_第3頁(yè)
協(xié)同過(guò)濾中基于用戶(hù)的相似度計(jì)算方法研究_第4頁(yè)
協(xié)同過(guò)濾中基于用戶(hù)的相似度計(jì)算方法研究_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、    協(xié)同過(guò)濾中基于用戶(hù)的相似度計(jì)算方法研究    【摘要】協(xié)同過(guò)濾算法已經(jīng)成為推薦系統(tǒng)中應(yīng)用程度最為廣泛和有效的一種方法。評(píng)分預(yù)測(cè)推薦算法作為協(xié)同過(guò)濾的一個(gè)重要的分支研究方向,有著非常重要的地位和研究?jī)r(jià)值。評(píng)分預(yù)測(cè)推薦中基于用戶(hù)的協(xié)同過(guò)濾推薦算法最關(guān)鍵的一步就是用戶(hù)間相似度的計(jì)算。弄清基于用戶(hù)的不同相似度計(jì)算方法的特點(diǎn)、公式和優(yōu)缺點(diǎn),對(duì)提高協(xié)同過(guò)濾的評(píng)分預(yù)測(cè)準(zhǔn)確度具有重要意義?!娟P(guān)鍵詞】協(xié)同過(guò)濾;評(píng)分預(yù)測(cè);相似度推薦系統(tǒng)中最為重要的推薦算法就是協(xié)同過(guò)濾推薦算法,協(xié)同過(guò)濾在工業(yè)界和學(xué)術(shù)界已經(jīng)得到了很深入的研究和發(fā)展,具有舉足輕重的商用價(jià)值和學(xué)術(shù)意義?;?/p>

2、于用戶(hù)的協(xié)同過(guò)濾推薦算法是協(xié)同過(guò)濾算法的一個(gè)重要研究分支,自 20 世紀(jì) 90 年代以來(lái)一直是領(lǐng)域內(nèi)關(guān)注的焦點(diǎn)?;谟脩?hù)的協(xié)同過(guò)濾算法中最關(guān)鍵的步驟就是對(duì)用戶(hù)相似度的計(jì)算。不同的相似度計(jì)算方法具有不同的公式和優(yōu)缺點(diǎn),能適應(yīng)不同的數(shù)據(jù)環(huán)境。一、基于用戶(hù)的協(xié)同過(guò)濾推薦算法基于用戶(hù)的協(xié)同過(guò)濾是一種基于存儲(chǔ)的協(xié)同過(guò)濾推薦算法。該算法認(rèn)為一個(gè)用戶(hù)會(huì)喜歡和他有相似興趣愛(ài)好的用戶(hù)喜歡的產(chǎn)品。因此,要對(duì)一個(gè)用戶(hù)做推薦,首先得找到和他興趣愛(ài)好相似的用戶(hù)。在user cf 中,兩個(gè)用戶(hù)興趣愛(ài)好相似是因?yàn)樗麄兿矚g相似的產(chǎn)品。這種相似性通過(guò)用戶(hù)相似度進(jìn)行衡量。衡量?jī)蓚€(gè)用戶(hù)的相似度主要有兩種思路:一種認(rèn)為對(duì)于給定用戶(hù)u

3、、a,若他們對(duì)于任意產(chǎn)品i總是給出相似的評(píng)分,則認(rèn)為這兩個(gè)用戶(hù)相似,這種方法被稱(chēng)為 correlation相似度方法;另一種則認(rèn)為如果用戶(hù)u、a總是對(duì)相同的產(chǎn)品進(jìn)行瀏覽、評(píng)價(jià)等行為,則這兩個(gè)用戶(hù)相似,這種方法被稱(chēng)為relevance相似度方法。利用計(jì)算所得的用戶(hù)相似度,user cf為待推薦用戶(hù)尋找近鄰,以便利用近鄰行為預(yù)測(cè)當(dāng)前用戶(hù)的行為。近鄰搜索是user cf算法的核心內(nèi)容之一,其效率和質(zhì)量直接影響推薦算法的有效性。近鄰搜索往往需要為當(dāng)前用戶(hù)尋找k個(gè)最相似的用戶(hù),因此,亦被稱(chēng)為 k近鄰方法(k-nearest neighbors,簡(jiǎn)稱(chēng)knn)。在確定了用戶(hù)u的近鄰集合后,user cf 利

4、用這些近鄰的評(píng)分信息,將其進(jìn)行加權(quán)平均,預(yù)測(cè)用戶(hù)u對(duì)未評(píng)分產(chǎn)品的評(píng)分值。其計(jì)算方法如下面公式所示:其中,為用戶(hù)u和用戶(hù)a的相似度,n(u)為用戶(hù)u的近鄰集合。在top-n推薦忠,usercf通過(guò)預(yù)測(cè)用戶(hù)對(duì)產(chǎn)品的評(píng)分值信息,對(duì)用戶(hù)未評(píng)分產(chǎn)品進(jìn)行排序,預(yù)測(cè)評(píng)分值較高的前n個(gè)產(chǎn)品推薦給用戶(hù)。二、四種典型的衡量用戶(hù)相似度的方法(一)余弦相似度(cosine)1是一種典型的 correlation 相似度方法。它將用戶(hù)的歷史評(píng)分信息看作是n維向量,即使用u、a分別表示用戶(hù)u和用戶(hù)a的歷史評(píng)分信息。其中向量的第i個(gè)元素是該用戶(hù)對(duì)第i個(gè)產(chǎn)品的評(píng)分值,未評(píng)分產(chǎn)品用0代替。用戶(hù)u和用戶(hù)a的余弦相似度可以用兩個(gè)向

5、量的夾角余弦表示,即:其中是用戶(hù)u對(duì)產(chǎn)品i的評(píng)分值,是用戶(hù)u和用戶(hù)a共同評(píng)分的產(chǎn)品集合。(二)皮爾遜相關(guān)性(pearson correlation, pc)1亦是一種典型的correlation 相似度方法。它是自然科學(xué)領(lǐng)域中廣泛用于度量?jī)蓚€(gè)變量間線(xiàn)性相關(guān)程度的方法之一。在user cf中,它可以有效描述兩個(gè)用戶(hù)在若干個(gè)產(chǎn)品上評(píng)分變化趨勢(shì)的一致程度。其計(jì)算方法如公式所示:其中,是用戶(hù)u對(duì)產(chǎn)品的平均評(píng)分值。(三)歐幾里德距離相似度(euclidean distance similarity)3 最初用于計(jì)算歐幾里德空間中兩個(gè)點(diǎn)的距離,后引用到推薦領(lǐng)域,用來(lái)計(jì)算兩個(gè)用戶(hù)間的相似度,距離越小,相似度

6、越大,其計(jì)算方法如下:(四)jaccard 相似度4是一種典型的relevance相似度方法。它通過(guò)計(jì)算用戶(hù)u和用戶(hù)a評(píng)分的產(chǎn)品集合的相似程度衡量?jī)蓚€(gè)用戶(hù)之間的相似度,兩個(gè)用戶(hù)共同評(píng)分的產(chǎn)品越多則他們?cè)较嗨?,其?jì)算方法為:(五)對(duì)數(shù)似然相似度(log-likelihood)5亦是一種典型的relevance相似度方法。它通過(guò)計(jì)算用戶(hù)和用戶(hù)所評(píng)分產(chǎn)品集合的對(duì)數(shù)似然相似度衡量?jī)蓚€(gè)用戶(hù)間的相似程度,其計(jì)算方法如以下三個(gè)公式所示:其中,的取值(項(xiàng)目次數(shù))如下表所示:(六)斯皮爾曼等級(jí)關(guān)聯(lián)(spearman rank correlation, src)定義為物品i在用戶(hù)u所評(píng)分物品中的排位(并列評(píng)分用它

7、們的平均排名),則用戶(hù)u和v的相似度可以這樣計(jì)算:其中,是用戶(hù)所評(píng)價(jià)物品的平均排名。三、不同相似度計(jì)算方法的比較由于沒(méi)有考慮負(fù)關(guān)聯(lián),歐幾里德距離求得的預(yù)測(cè)評(píng)分準(zhǔn)確度是最低的。jaccard 相似度并沒(méi)有考慮評(píng)分的多少而是根據(jù)評(píng)價(jià)的排名確定相似度。同時(shí),pc的準(zhǔn)確度在一定范圍內(nèi)準(zhǔn)確度要比其他相似度計(jì)算方法要高,但隨著數(shù)據(jù)庫(kù)的變化,src逐漸高于pc。事實(shí)上,各種相似度計(jì)算方法之間的準(zhǔn)確度在不同數(shù)據(jù)量條件和評(píng)分規(guī)則下,并非一成不變,是變化的。具體如何變化,還有待進(jìn)一步研究。但是有實(shí)驗(yàn)表明pc和src在數(shù)據(jù)庫(kù)環(huán)境發(fā)生變化時(shí),其準(zhǔn)確度是逐漸變化的??傊鶕?jù)數(shù)據(jù)庫(kù)中用戶(hù)數(shù)量、用戶(hù)評(píng)分?jǐn)?shù)量、評(píng)分規(guī)則以及

8、評(píng)價(jià)物品數(shù)量等數(shù)據(jù)量的變化,協(xié)同過(guò)濾需要應(yīng)用的相似度計(jì)算方法也應(yīng)當(dāng)有所不同,甚至需要進(jìn)行動(dòng)態(tài)的混合和組合。只有這樣才能使推薦系統(tǒng)的結(jié)果達(dá)到評(píng)分預(yù)測(cè)準(zhǔn)確率最高,從而使用戶(hù)最滿(mǎn)意,獲得用戶(hù)與程序設(shè)計(jì)者雙贏的目的。參考文獻(xiàn)1 adomavicius,g.,&tuzhilin;,a.(2005).toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensionsj.ieee transactions on knowledge and data en

9、gineering, 2005-9-9,17(6),734-749.doi:10.1109/tkde.2manning, c.d., raghavan, p., & schütze, h. introduction to information retrievalj. new york, ny, usa: cambridge university press, 2008.3shang, m.s., l. lü, w. zeng, et al. relevance is more significant than correlation: information filtering on sparse dataj. epl (europhysics letters), 2009. 88(6): 68008.4herlocker, j. l. understanding and improving automated collaborative filtering systemsd. university of minnesota ph.d. thesis. 2000. a

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論