基于評分預(yù)測協(xié)同過濾推薦算法比較及改進_第1頁
基于評分預(yù)測協(xié)同過濾推薦算法比較及改進_第2頁
基于評分預(yù)測協(xié)同過濾推薦算法比較及改進_第3頁
基于評分預(yù)測協(xié)同過濾推薦算法比較及改進_第4頁
基于評分預(yù)測協(xié)同過濾推薦算法比較及改進_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

報告人:周海平浙江萬里學(xué)院第十五屆全國機器學(xué)習(xí)會議報告綱要4課題背景及應(yīng)用領(lǐng)域12改進的推薦算法3傳統(tǒng)協(xié)同過濾算法的介紹55工作總結(jié)課題背景及應(yīng)用領(lǐng)域研究背景:由于互聯(lián)網(wǎng)的普及,越來越多的人開始使用互聯(lián)網(wǎng)進行購物或參加社交活動。另一方面,由于互聯(lián)網(wǎng)上的信息每年都以爆炸式的速度增長,人們在如此眾多的信息中極其容易迷失方向,要改變這種現(xiàn)狀,就必須使互聯(lián)網(wǎng)從被動地接受用戶的信息轉(zhuǎn)變?yōu)橹鲃痈兄吞綔y用戶的需求,推薦系統(tǒng)就是在這種背景下產(chǎn)生的。推薦系統(tǒng)的功能對于消費者:尋找感興趣的物品縮小選擇的范圍發(fā)現(xiàn)新事物尋找與自己相似的用戶對于提供者:為客戶提供個性化服務(wù)增加客戶的信任和忠誠度提高銷售量獲取更多關(guān)于消費者的信息推薦系統(tǒng)的應(yīng)用領(lǐng)域電子商務(wù)----亞馬遜電影和視頻網(wǎng)站---Netflix推薦系統(tǒng)的應(yīng)用領(lǐng)域音樂網(wǎng)站----豆瓣音樂個性化郵件----Gmail推薦系統(tǒng)的應(yīng)用領(lǐng)域社交網(wǎng)絡(luò)----Facebook一、兩種協(xié)同過濾推薦算法的介紹基于用戶的協(xié)同過濾推薦基于用戶的協(xié)同過濾推薦的基本原理是,根據(jù)所有用戶對物品的偏好,發(fā)現(xiàn)與當前用戶口味和偏好相似的鄰居用戶,然后,基于這些鄰居的偏好信息,為當前用戶進行推薦?;谖锲返膮f(xié)同過濾推薦基于物品的協(xié)同過濾推薦的基本原理與基于用戶的協(xié)同過濾推薦算法類似,只不過此時推薦算法計算的是物品和物品之間的相似度,然后根據(jù)用戶的偏好信息,將類似的物品推薦給用戶。相似性度量標準(1)歐氏距離(Euclidean

Distance)(2)皮爾森相關(guān)系數(shù)(Pearson

Correlation

Coefficient)jic?I

i

,

jj

,ci,c-

r

)2(rc?I

i

,

j(r

-

r

)2(ri

,c

-

ri

)(rj

,c

-

rj

)c?I

i

,

jsim

(i

,

j

)

=ni

ii

=1dist

(

X

,Y )

=

(

x

-

y )

2(3)余弦相似度(Cosine

Similarity)(4)Jaccard相似系數(shù)(Jaccard

Coefficient)x

yfi

fix

ysim

(

X

,Y )

=

cosq

=X

YJaccard(

X

,Y )

=

X

Y評分預(yù)測預(yù)測用戶u對未購買物品c的評分v?

Nu=

v?

Nurv,cu

,c

sim(u,

v)

rv,c

sim(u,

v)

d推薦系統(tǒng)的評價指標I----準確率

?

u?Uu

Upresition

=T

(u)R(u)

T

(u)R(u)是根據(jù)用戶在訓(xùn)練集上的行為給用戶作出的推薦列表,而T(u)是用戶在測試集上的行為列表推薦系統(tǒng)的評價指標II----召回率R(u)是根據(jù)用戶在訓(xùn)練集上的行為給用戶作出的推薦列表,而T(u)是用戶在測試集上的行為列表u?U=

u?UrecallR(u)R(u)

T

(u)結(jié)果:數(shù)據(jù)集來源:grouplens網(wǎng)站提供了10萬條影片評分數(shù)據(jù)基于用戶的過濾算法比基于物品的過濾算法要推薦質(zhì)量要好一點。改進的相似性算法傳統(tǒng)的相似性算法僅將用戶之間評分的差異做為相似性度量標準,實際上兩個用戶的共同評價數(shù)也是衡量相似性的重要指標。(例如:兩個用戶共同只看過一部電影,并且評分相同,另兩個用戶共同看了10部電影,其中有9部影片評分相同,1部影片評分不同,顯然后者的相似性要高,但傳統(tǒng)算法卻認為前者的相似性更高,很不合理。)改進后的相似度:sim(u,

v)¢=

sim(u,

v)

Iu,vIu

,v

表示用戶u和用戶v的共同評價過的影片數(shù)目。結(jié)果顯然,改進后的算法的推薦質(zhì)量遠遠高于傳統(tǒng)算法第二次改進:考慮到共同評價的影片中有一些非常熱門,這些影片幾乎所有用戶都給了好評,這種影片對計算用戶之間的相似性幾乎沒有什么貢獻,因此需要減小熱門影片在相似性指標中的權(quán)重,因此我們對相似性進行了優(yōu)化:Nu

Nv?1

1sim(u,

v)

=

i?

Nu

Nv

1

+

log(1

+

rui

-

rvi

)

log(1

+

Ni

)結(jié)論:降低熱門影片的權(quán)重能提高推薦的準確率和召回率第三次改進Nu

Nv?log(1

+

Ni

)11sim

(u,

v)

=

i?

Nu

Nv

1

+

log(1

+

rui

-

rvi

)Nu

N

vlog(

1

+

N

i

)1sim

(u

,

v)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論