內(nèi)容簡介: 隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的時代走入了信息過載(information overload)的時代 。在這個時代,無論是信息消費者還是信息生產(chǎn)者都遇到了很大的挑戰(zhàn):對于信息消費者,從大量信息中找到自己感興趣的信息是一件非常困難的事情;對于信息生產(chǎn)者,讓自己生產(chǎn)的信息脫穎而出,受到廣大用戶的關(guān)注,也是一件非常困難的事情。推薦系統(tǒng)就是解決這一矛盾的重要工具。推薦系統(tǒng)的任務(wù)就是聯(lián)系用戶和信息,一方面幫助用戶發(fā)現(xiàn)對自己有價值的信息,另一方面讓信息能夠展現(xiàn)在對它感興趣的用戶面前,從而實現(xiàn)信息消費者和信息生產(chǎn)者的雙贏。
作者簡介 項亮,畢業(yè)于中國科學(xué)技術(shù)大學(xué)和中國科學(xué)院自動化所,研究方向為機器學(xué)習(xí)和推薦系統(tǒng),現(xiàn)任職于北京Hulu軟件技術(shù)開發(fā)有限公司,從事視頻推薦的研究和開發(fā)。2009年參加Netflix Prize推薦系統(tǒng)比賽獲得團體第二名,且于當(dāng)年發(fā)起創(chuàng)建了Resys China推 薦系統(tǒng)社區(qū)。
目錄: 目 錄 第1章 好的推薦系統(tǒng) 1 1.1 什么是推薦系統(tǒng) 1 1.2 個性化推薦系統(tǒng)的應(yīng)用 4 1.2.1 電子商務(wù) 4 1.2.2 電影和視頻網(wǎng)站 8 1.2.3 個性化音樂網(wǎng)絡(luò)電臺 10 1.2.4 社交網(wǎng)絡(luò) 12 1.2.5 個性化閱讀 15 1.2.6 基于位置的服務(wù) 16 1.2.7 個性化郵件 17 1.2.8 個性化廣告 18 1.3 推薦系統(tǒng)評測 19 1.3.1 推薦系統(tǒng)實驗方法 20 1.3.2 評測指標(biāo) 23 1.3.3 評測維度 34 第2章 利用用戶行為數(shù)據(jù) 35 2.1 用戶行為數(shù)據(jù)簡介 36 2.2 用戶行為分析 39 2.2.1 用戶活躍度和物品流行度的分布 39 2.2.2 用戶活躍度和物品流行度的關(guān)系 41 2.3 實驗設(shè)計和算法評測 41 2.3.1 數(shù)據(jù)集 42 2.3.2 實驗設(shè)計 42 2.3.3 評測指標(biāo) 42 2.4 基于鄰域的算法 44 2.4.1 基于用戶的協(xié)同過濾算法 44 2.4.2 基于物品的協(xié)同過濾算法 51 2.4.3 UserCF和ItemCF的綜合比較 59 2.5 隱語義模型 64 2.5.1 基礎(chǔ)算法 64 2.5.2 基于LFM的實際系統(tǒng)的例子 70 2.5.3 LFM和基于鄰域的方法的比較 72 2.6 基于圖的模型 73 2.6.1 用戶行為數(shù)據(jù)的二分圖表示 73 2.6.2 基于圖的推薦算法 73 第3章 推薦系統(tǒng)冷啟動問題 78 3.1 冷啟動問題簡介 78 3.2 利用用戶注冊信息 79 3.3 選擇合適的物品啟動用戶的興趣 85 3.4 利用物品的內(nèi)容信息 89 3.5 發(fā)揮專家的作用 94 第4章 利用用戶標(biāo)簽數(shù)據(jù) 96 4.1 UGC標(biāo)簽系統(tǒng)的代表應(yīng)用 97 4.1.1 Delicious 97 4.1.2 CiteULike 98 4.1.3 Last.fm 98 4.1.4 豆瓣 99 4.1.5 Hulu 99 4.2 標(biāo)簽系統(tǒng)中的推薦問題 100 4.2.1 用戶為什么進行標(biāo)注 100 4.2.2 用戶如何打標(biāo)簽 101 4.2.3 用戶打什么樣的標(biāo)簽 102 4.3 基于標(biāo)簽的推薦系統(tǒng) 103 4.3.1 實驗設(shè)置 104 4.3.2 一個最簡單的算法 105 4.3.3 算法的改進 107 4.3.4 基于圖的推薦算法 110 4.3.5 基于標(biāo)簽的推薦解釋 112 4.4 給用戶推薦標(biāo)簽 115 4.4.1 為什么要給用戶推薦標(biāo)簽 115 4.4.2 如何給用戶推薦標(biāo)簽 115 4.4.3 實驗設(shè)置 116 4.4.4 基于圖的標(biāo)簽推薦算法 119 4.5 擴展閱讀 119 第5章 利用上下文信息 121 5.1 時間上下文信息 122 5.1.1 時間效應(yīng)簡介 122 5.1.2 時間效應(yīng)舉例 123 5.1.3 系統(tǒng)時間特性的分析 125 5.1.4 推薦系統(tǒng)的實時性 127 5.1.5 推薦算法的時間多樣性 128 5.1.6 時間上下文推薦算法 130 5.1.7 時間段圖模型 134 5.1.8 離線實驗 136 5.2 地點上下文信息 139 5.3 擴展閱讀 143 第6章 利用社交網(wǎng)絡(luò)數(shù)據(jù) 144 6.1 獲取社交網(wǎng)絡(luò)數(shù)據(jù)的途徑 144 6.1.1 電子郵件 145 6.1.2 用戶注冊信息 146 6.1.3 用戶的位置數(shù)據(jù) 146 6.1.4 論壇和討論組 146 6.1.5 即時聊天工具 147 6.1.6 社交網(wǎng)站 147 6.2 社交網(wǎng)絡(luò)數(shù)據(jù)簡介 148社交網(wǎng)絡(luò)數(shù)據(jù)中的長尾分布 149 6.3 基于社交網(wǎng)絡(luò)的推薦 150 6.3.1 基于鄰域的社會化推薦算法 151 6.3.2 基于圖的社會化推薦算法 152 6.3.3 實際系統(tǒng)中的社會化推薦算法 153 6.3.4 社會化推薦系統(tǒng)和協(xié)同過濾推薦系統(tǒng) 155 6.3.5 信息流推薦 156 6.4 給用戶推薦好友 159 6.4.1 基于內(nèi)容的匹配 161 6.4.2 基于共同興趣的好友推薦 161 6.4.3 基于社交網(wǎng)絡(luò)圖的好友推薦 161 6.4.4 基于用戶調(diào)查的好友推薦算法對比 164 6.5 擴展閱讀 165 第7章 推薦系統(tǒng)實例 166 7.1 外圍架構(gòu) 166 7.2 推薦系統(tǒng)架構(gòu) 167 7.3 推薦引擎的架構(gòu) 171 7.3.1 生成用戶特征向量 172 7.3.2 特征?物品相關(guān)推薦 173 7.3.3 過濾模塊 174 7.3.4 排名模塊 174 7.4 擴展閱讀 178 第8章 評分預(yù)測問題 179 8.1 離線實驗方法 180 8.2 評分預(yù)測算法 180 8.2.1 平均值 180 8.2.2 基于鄰域的方法 184 8.2.3 隱語義模型與矩陣分解模型 186 8.2.4 加入時間信息 192 8.2.5 模型融合 193 8.2.6 Netflix Prize的相關(guān)實驗結(jié)果 195 后記 196
|