協同過濾CF用戶對物品的評分_07_推薦系統演算法詳解

1. 07_推薦系統演算法詳解

基於人口統計學的推薦與用戶畫像、基於內容的推薦、基於協同過濾的推薦。

1、基於人口統計學的推薦機制( Demographic-based Recommendation)是一種最易於實現的推薦方法，它只是簡單的根據系統用戶的基本信息發現用戶的相關程度，然後將相似用戶喜愛的其他物品推薦給當前用戶。

2、對於沒有明確含義的用戶信息(比如登錄時間、地域等上下文信息)，可以通過聚類等手段，給用戶打上分類標簽。

3、對於特定標簽的用戶，又可以根據預設的規則(知識)或者模型，推薦出對應的物品。

4、用戶信息標簽化的過程一般又稱為用戶畫像 ( User Profiling）。

（1）用戶畫像( User Profile)就是企業通過收集與分析消費者社會屬性、生活習慣、消費行為等主要信息的數據之後，完美地抽象出一個用戶的商業全貌作是企業應用大數據技術的基本方式。

（2）用戶畫像為企業提供了足夠的信息基礎，能夠幫助企業快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。

（3）作為大數據的根基，它完美地抽象出一個用戶的信息全貌，為進一步精準、快速地分析用戶行為習慣、消費習慣等重要信息，提供了足夠的數據基礎。

1、 Content- based Recommendations(CB)根據推薦物品或內容的元數據，發現物品的相關性，再基於用戶過去的喜好記錄，為用戶推薦相似的物品。

2、通過抽取物品內在或者外在的特徵值,實現相似度計算。比如一個電影,有導演、演員、用戶標簽UGC、用戶評論、時長、風格等等，都可以算是特徵。

3、將用戶(user)個人信息的特徵(基於喜好記錄或是預設興趣標簽)，和物品(item)的特徵相匹配，就能得到用戶對物品感興趣的程度。在一些電影、音樂、圖書的社交網站有很成功的應用,有些網站還請專業的人員對物品進行基因編碼/打標簽(PGC）。

4、相似度計算：

5、對於物品的特徵提取——打標簽(tag)

- 專家標簽(PGC）

- 用戶自定義標簽(UGC)

- 降維分析數據,提取隱語義標簽(LFM)

對於文本信息的特徵提取——關鍵詞

- 分詞、語義處理和情感分析(NLP)

- 潛在語義分析(LSA）

6、基於內容推薦系統的高層次結構

7、特徵工程

（1）特徵( feature)：數據中抽取出來的對結果預測有用的信息。

特徵的個數就是數據的觀測維度。

特徵工程是使用專業背景知識和技巧處理數據，使得特徵能在機器學習演算法上發揮更好的作用的過程。

特徵工程一般包括特徵清洗(采樣、清洗異常樣本)，特徵處理和特徵選擇。

特徵按照不同的數據類型分類，有不同的特徵處理方法：數值型、類別型、時間型、統計型。

（2）數值型特徵處理

      用連續數值表示當前維度特徵，通常會對數值型特徵進行數學上的處理，主要的做法是歸一化和離散化。

        * 幅度調整歸一化：

        特徵與特徵之間應該是平等的，區別應該體現在特徵內部。

        例如房屋價格和住房面積的幅度是不同的，房屋價格可能在3000000~15000000(萬)之間,而住房面積在40-300(平方米)之間，那麼明明是平等的兩個特徵，輸入到相同的模型中後由於本身的幅值不同導致產生的效果不同，這是不合理的



* 數值型特徵處理——離散化

離散化的兩種方式：等步長——簡單但不一定有效；等頻——min -> 25% -> 75% -> max

兩種方法對比：

          等頻的離散化方法很精準，但需要每次都對數據分布進行一遍從新計算，因為昨天用戶在淘寶上買東西的價格分布和今天不一定相同，因此昨天做等頻的切分點可能並不適用，而線上最需要避免的就是不固定，需要現場計算，所以昨天訓練出的模型今天不一定能使用。

        等頻不固定，但很精準，等步長是固定的，非常簡單，因此兩者在工業上都有應用。

（3）類別型特徵處理

      類別型數據本身沒有大小關系，需要將它們編碼為數字，但它們之間不能有預先設定的大小關系，因此既要做到公平，又要區分開它們，那麼直接開辟多個空間。

    One-Hot編碼/啞變數：One-Hot編碼/啞變數所做的就是將類別型數據平行地展開，也就是說，經過One-Hot編碼啞變數後，這個特徵的空間會膨脹。

（4）時間型特徵處理

        時間型特徵既可以做連續值,又可以看做離散值。

連續值：持續時間(網頁瀏覽時長)；間隔時間(上一次購買/點擊離現在的時間間隔)。

        離散值：一天中哪個時間段；一周中的星期幾；一年中哪個月/星期；工作日/周末。

（5）統計型特徵處理

      加減平均：商品價格高於平均價格多少，用戶在某個品類下消費超過多少。

        分位線：商品屬於售出商品價格的分位線處。

        次序性：商品處於熱門商品第幾位。

    比例類：電商中商品的好/中/差評比例。

8、推薦系統常見反饋數據：

9、基於UGC的推薦

用戶用標簽來描述對物品的看法，所以用戶生成標簽(UGC)是聯系用戶和物品的紐帶，也是反應用戶興趣的重要數據源。

一個用戶標簽行為的數據集一般由一個三元組(用戶,物品,標簽)的集合表示，其中一條記錄(u,i,b)表示用戶u給物品打上了標簽b。

一個最簡單的演算法：

- 統計每個用戶最常用的標簽

    - 對於每個標簽,統計被打過這個標簽次數最多的物品

- 對於一個用戶，首先找到他常用的標簽，然後找到具有這些標簽的最熱門的物品，推薦給他

- 所以用戶u對物品i的興趣公式為，其中使用戶u打過標簽b的次數，是物品i被打過標簽b的次數。

簡單演算法中直接將用戶打出標簽的次數和物品得到的標簽次數相乘，可以簡單地表現出用戶對物品某個特徵的興趣。

    這種方法傾向於給熱門標簽(誰都會給的標簽,如「大片」、「搞笑」等)、熱門物品(打標簽人數最多)比較大的權重，如果一個熱門物品同時對應著熱門標簽,那它就會「霸榜」，推薦的個性化、新穎度就會降低。

    類似的問題,出現在新聞內容的關鍵字提取中。比如以下新聞中,哪個關鍵字應該獲得更高的權重?

10、 TF-IDF：詞頻逆文檔頻率 ( Term Frequency- -Inverse Document Frequency,TF-DF)是一種用於資訊檢索與文本挖掘的常用加權技術。

      TFDF是一種統計方法，用以評估一個字詞對於一個文件集或一個語料庫中的其中份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加，但同時會隨著它在語料庫中出現的頻率成反比下降。

                  TFIDF=TF IDF

     TF-IDF的主要思想是：如果某個詞或短語在一篇文章中出現的頻率TF高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。

    TF-DF加權的各種形式常被搜索引擎應用，作為文件與用戶查詢之間相關程度的度量或評級。

       詞頻( Term Frequency,TF) ：指的是某一個給定的詞語在該文件中出現的頻率。這個數字是對詞數的歸一化，以防止偏向更長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞數,而不管該詞語重要與否。），其中表示詞語 i 在文檔 j 中出現的頻率，表示 i 在 j 中出現的次數，表示文檔 j 的總詞數。

         逆向文件頻率( Inverse Document Frequency,IDF) ：是一個詞語普遍重要性的度量，某一特定詞語的IDF，可以由總文檔數目除以包含該詞語之文檔的數目，再將得到的商取對數得到，其中表示詞語 i 在文檔集中的逆文檔頻率，N表示文檔集中的文檔總數，表示文檔集中包含了詞語 i 的文檔數。

（11） TF-IDF對基於UGC推薦的改進：，為了避免熱門標簽和熱門物品獲得更多的權重，我們需要對「熱門進行懲罰。

借鑒TF-IDF的思想，以一個物品的所有標簽作為「文檔」，標簽作為「詞語」，從而計算標簽的「詞頻」(在物品所有標簽中的頻率)和「逆文檔頻率」(在其它物品標簽中普遍出現的頻率）。

由於「物品i的所有標簽」應該對標簽權重沒有影響，而「所有標簽總數」 N 對於所有標簽是一定的，所以這兩項可以略去。在簡單演算法的基礎上,直接加入對熱門標簽和熱門物品的懲罰項：，其中，記錄了標簽 b 被多少個不同的用戶使用過，記錄了物品 i 被多少個不同的用戶打過標簽。

（一）協同過濾（Collaborative Filtering, CF）

1、基於協同過濾(CF)的推薦：基於內容( Content based,CB)主要利用的是用戶評價過的物品的內容特徵，而CF方法還可以利用其他用戶評分過的物品內容。

CF可以解決CB的一些局限：

- 物品內容不完全或者難以獲得時,依然可以通過其他用戶的反饋給出推薦。

- CF基於用戶之間對物品的評價質量，避免了CB僅依賴內容可能造成的對物品質量判斷的干。

- CF推薦不受內容限制，只要其他類似用戶給出了對不同物品的興趣，CF就可以給用戶推薦出內容差異很大的物品(但有某種內在聯系)

    分為兩類：基於近鄰和基於模型。

2、基於近鄰的推薦系統：根據的是相同「口碑」准則。是否應該給Cary推薦《泰坦尼克號》?

（二）基於近鄰的協同過濾

1、基於用戶（User-CF）：基於用戶的協同過濾推薦的基本原理是，根據所有用戶對物品的偏好，發現與當前用戶口味和偏好相似的「鄰居」用戶群，並推薦近鄰所偏好的物品。

在一般的應用中是採用計算「K-近鄰」的演算法；基於這K個鄰居的歷史偏好信息，為當前用戶進行推薦。

User-CF和基於人口統計學的推薦機制：

- 兩者都是計算用戶的相似度，並基於相似的「鄰居」用戶群計算推薦。

- 它們所不同的是如何計算用戶的相似度：基於人口統計學的機制只考慮用戶本身的特徵，而基於用戶的協同過濾機制可是在用戶的歷史偏好的數據上計算用戶的相似度，它的基本假設是，喜歡類似物品的用戶可能有相同或者相似的口味和偏好。

2、基於物品（Item-CF）：基於項目的協同過濾推薦的基本原理與基於用戶的類似，只是使用所有用戶對物品的偏好，發現物品和物品之間的相似度，然後根據用戶的歷史偏好信息，將類似的物品推薦給用戶。

Item-CF和基於內容(CB)的推薦

- 其實都是基於物品相似度預測推薦，只是相似度計算的方法不一樣，前者是從用戶歷史的偏好推斷，而後者是基於物品本身的屬性特徵信息。

同樣是協同過濾，在基於用戶和基於項目兩個策略中應該如何選擇呢?

- 電商、電影、音樂網站,用戶數量遠大於物品數量。

- 新聞網站，物品(新聞文本)數量可能大於用戶數量。

3、 User-CF和Item-CF的比較

同樣是協同過濾，在User-CF和ltem-CF兩個策略中應該如何選擇呢？

Item-CF應用場景

- 基於物品的協同過濾( Item-CF ) 推薦機制是 Amazon在基於用戶的機制上改良的一種策略因為在大部分的Web站點中，物品的個數是遠遠小於用戶的數量的，而且物品的個數和相似度相對比較穩定，同時基於物品的機制比基於用戶的實時性更好一些，所以 Item-CF 成為了目前推薦策略的主流。

User-CF應用場景

- 設想一下在一些新聞推薦系統中，也許物品一一也就是新聞的個數可能大於用戶的個數，而且新聞的更新程度也有很快，所以它的相似度依然不穩定，這時用 User-cf可能效果更好。

所以，推薦策略的選擇其實和具體的應用場景有很大的關系。

4、基於協同過濾的推薦優缺點

（1）基於協同過濾的推薦機制的優點：

    它不需要對物品或者用戶進行嚴格的建模，而且不要求對物品特徵的描述是機器可理解的，所以這種方法也是領域無關的。

這種方法計算出來的推薦是開放的，可以共用他人的經驗，很好的支持用戶發現潛在的興趣偏好。

（2）存在的問題

    方法的核心是基於歷史數據，所以對新物品和新用戶都有「冷啟動」的問題。

        推薦的效果依賴於用戶歷史好數據的多少和准確性。

    在大部分的實現中，用戶歷史偏好是用稀疏矩陣進行存儲的，而稀疏矩陣上的計算有些明顯的問題，包括可能少部分人的錯誤偏好會對推薦的准確度有很大的影響等等。

    對於一些特殊品味的用戶不能給予很好的推薦。

（三）基於模型的協同過濾

1、基本思想

（1）用戶具有一定的特徵，決定著他的偏好選擇

（2）物品具有一定的特徵，影響著用戶需是否選擇它。

（3）用戶之所以選擇某一個商品，是因為用戶特徵與物品特徵相互匹配。

    基於這種思想，模型的建立相當於從行為數據中提取特徵，給用戶和物品同時打上「標簽」；這和基於人口統計學的用戶標簽、基於內容方法的物品標簽本質是一樣的，都是特徵的提取和匹配。

有顯性特徵時(比如用戶標簽、物品分類標簽)我們可以直接匹配做出推薦；沒有時，可以根據已有的偏好數據，去發據出隱藏的特徵,這需要用到隱語義模型(LFM)。

2、基於模型的協同過濾推薦，就是基於樣本的用戶偏好信息，訓練一個推薦模型,然後根據實時的用戶喜好的信息進行預測新物品的得分，計算推薦

    基於近鄰的推薦和基於模型的推薦

- 基於近鄰的推薦是在預測時直接使用已有的用戶偏好數據，通過近鄰數據來預測對新物品的偏好(類似分類)

- 而基於模型的方法，是要使用這些偏好數據來訓練模型，找到內在規律，再用模型來做預測(類似回歸)

訓練模型時，可以基於標簽內容來提取物品特徵，也可以讓模型去發據物品的潛在特徵；這樣的模型被稱為隱語義模型 ( Latent Factor Model,LFM)。

（1）隱語義模型(LFM)：用隱語義模型來進行協同過濾的目標：

- 揭示隱藏的特徵,這些特徵能夠解釋為什麼給出對應的預測評分

    - 這類特徵可能是無法直接用語言解釋描述的,事實上我們並不需要知道,類似「玄學」

        通過矩陣分解進行降維分析

- 協同過濾演算法非常依賴歷史數據，而一般的推薦系統中，偏好數據又往往是稀疏的；這就需要對原始數據做降維處理。

- 分解之後的矩陣，就代表了用戶和物品的隱藏特徵

        隱語義模型的實例：基於概率的隱語義分析(pLSA)、隱式迪利克雷分布模型(LDA)、矩陣因子分解模型(基於奇異值分解的模型,SVD)

（2）LFM降維方法——矩陣因子分解

（3）LFM的進一步理解

    我們可以認為，用戶之所以給電影打出這樣的分數，是有內在原因的，我們可以挖掘出影響用戶打分的隱藏因素，進而根據未評分電影與這些隱藏因素的關聯度，決定此未評分電影的預測評分。

應該有一些隱藏的因素，影響用戶的打分，比如電影：演員、題材、年代…甚至不定是人直接可以理解的隱藏因子。

找到隱藏因子，可以對user和Iiem進行關聯(找到是由於什麼使得user喜歡/不喜歡此Item,什麼會決定user喜歡/不喜歡此item)，就可以推測用戶是否會喜歡某一部未看過的電影。

（4）矩陣因子分解

（5）模型的求解——損失函數

（6）模型的求解演算法——ALS

  現在，矩陣因子分解的問題已經轉化成了一個標準的優化問題，需要求解P、Q，使目標損失函數取最小值。

最小化過程的求解，一般採用隨機梯度下降演算法或者交替最小二乘法來實現交替最小二乘法( Alternating Least Squares,ALS)

ALS的思想是，由於兩個矩陣P和Q都未知,且通過矩陣乘法耦合在一起，為了使它們解耦，可以先固定Q，把P當作變數，通過損失函數最小化求出P，這就是一個經典的最小二乘問題；再反過來固定求得的P，把Q當作變數，求解出Q：如此交替執行，直到誤差滿足閱值條件，或者到達迭代上限。

（7）梯度下降演算法

2. 推薦系統（一）：基於物品的協同過濾演算法

協同過濾(collaborative filtering)演算法是最經典、最常用的推薦演算法。其基本思想是收集用戶偏好，找到相似的用戶或物品，然後計算並推薦。
基於物品的協同過濾演算法的核心思想就是：給用戶推薦那些和他們之前喜歡的物品相似的物品。主要可分為兩步：
(1) 計算物品之間的相似度，建立相似度矩陣。
(2) 根據物品的相似度和用戶的歷史行為給用戶生成推薦列表。

相似度的定義有多種方式，下面簡要介紹其中幾種：

其中，分母是喜歡物品的用戶數，而分子是同時喜歡物品和物品的用戶數。因此，上述公式可以理解為喜歡物品的用戶中有多少比例的用戶也喜歡物品。
上述公式存在一個問題。如果物品很熱門，就會很大，接近1。因此，該公式會造成任何物品都會和熱門的物品有很大的相似度，為了避免推薦出熱門的物品，可以用下面的公式：

這個公式懲罰了物品的權重，因此減輕了熱門物品會和很多物品相似的可能性。
另外為減小活躍用戶對結果的影響，考慮IUF(nverse User Frequence) ，即用戶活躍度對數的倒數的參數，認為活躍用戶對物品相似度的貢獻應該小於不活躍的用戶。

為便於計算，還需要進一步將相似度矩陣歸一化。

其中表示用戶對物品的評分。在區間內，越接近1表示相似度越高。

表示空間中的兩個點，則其歐幾里得距離為：

當時，即為平面上兩個點的距離，當表示相似度時，可採用下式轉換：

距離越小，相似度越大。

一般表示兩個定距變數間聯系的緊密程度，取值范圍為[-1,1]

其中是和的樣品標准差

將用戶行為數據按照均勻分布隨機劃分為M份，挑選一份作為測試集，將剩下的M-1份作為訓練集。為防止評測指標不是過擬合的結果，共進行M次實驗，每次都使用不同的測試集。然後將M次實驗測出的評測指標的平均值作為最終的評測指標。

對用戶u推薦N個物品(記為 )，令用戶u在測試集上喜歡的物品集合為，召回率描述有多少比例的用戶-物品評分記錄包含在最終的推薦列表中。

准確率描述最終的推薦列表中有多少比例是發生過的用戶-物品評分記錄。

覆蓋率反映了推薦演算法發掘長尾的能力，覆蓋率越高，說明推薦演算法越能夠將長尾中的物品推薦給用戶。分子部分表示實驗中所有被推薦給用戶的物品數目(集合去重)，分母表示數據集中所有物品的數目。

採用GroupLens提供的MovieLens數據集， http://www.grouplens.org/node/73 。本章使用中等大小的數據集，包含6000多用戶對4000多部電影的100萬條評分。該數據集是一個評分數據集，用戶可以給電影評1-5分5個不同的等級。本文著重研究隱反饋數據集中TopN推薦問題，因此忽略了數據集中的評分記錄。

該部分定義了所需要的主要變數，集合採用字典形式的數據結構。

讀取原始CSV文件，並劃分訓練集和測試集，訓練集佔比87.5%，同時建立訓練集和測試集的用戶字典，記錄每個用戶對電影評分的字典。

第一步循環讀取每個用戶及其看過的電影，並統計每部電影被看過的次數，以及電影總數；第二步計算矩陣C，C[i][j]表示同時喜歡電影i和j的用戶數，並考慮對活躍用戶的懲罰；第三步根據式\ref{similarity}計算電影間的相似性；第四步進行歸一化處理。

針對目標用戶U，找到K部相似的電影，並推薦其N部電影，如果用戶已經看過該電影則不推薦。

產生推薦並通過准確率、召回率和覆蓋率進行評估。

結果如下所示，由於數據量較大，相似度矩陣為維，計算速度較慢，耐心等待即可。

[1]. https://blog.csdn.net/m0_37917271/article/details/82656158
[2]. 推薦系統與深度學習. 黃昕等. 清華大學出版社. 2019.
[3]. 推薦系統演算法實踐. 黃美靈. 電子工業出版社. 2019.
[4]. 推薦系統演算法. 項亮. 人民郵電出版社. 2012.
[5]. 美團機器學習實踐. 美團演算法團隊. 人民郵電出版社. 2018.

3. 利用 SVD 實現協同過濾推薦演算法

奇異值分解(Singular Value Decomposition，以下簡稱SVD)
是在機器學習領域廣泛應用的演算法，它不光可以用於 降維演算法中的特徵分解 ，還可以用於 推薦系統 ，以及自然語言處理等領域。

優點： 簡化數據，去除雜訊，提高演算法的結果。
缺點： 數據的轉換可能難以理解。

應用領域： 推薦引擎（協同過濾、相似度計算）、圖像壓縮等。

SVD定義： 如果我們求出了矩陣A的n個特徵值λ1≤λ2≤...≤λn，以及這n個特徵值所對應的特徵向量{w1,w2,...wn}，如果這n個特徵向量線性無關，那麼矩陣A就可以用下式的特徵分解表示：A=WΣW−1，其中W是這n個特徵向量所張成的n×n維矩陣，而Σ為這n個特徵值為主對角線的n×n維矩陣。一般我們會把W的這n個特徵向量標准化，即滿足||wi||2=1, 或者wiTwi=1，此時W的n個特徵向量為標准正交基，滿WTW=I，即WT=W−1, 也就是說W為酉矩陣。要進行特徵分解，矩陣A必須為方陣。那麼如果A不是方陣，則用到SVD。

矩陣A的SVD為：A=UΣVT，其中U是一個m×m的矩陣，Σ是一個m×n的矩陣，除了主對角線上的元素以外全為0，主對角線上的每個元素都稱為奇異值，V是一個n×n的矩陣。U和V都是酉矩陣，即滿足UTU=I,VTV=I。

對於奇異值,它跟我們特徵分解中的特徵值類似，在奇異值矩陣中也是按照從大到小排列，而且奇異值的減少特別的快，在很多情況下，前10%甚至1%的奇異值的和就佔了全部的奇異值之和的99%以上的比例。也就是說，我們也可以用最大的k個的奇異值和對應的左右奇異向量來近似描述矩陣。

因此SVD 也是一種強大的降維工具 ，可以利用 SVD 來逼近矩陣並從中獲得主要的特徵。通過保留矩陣的 80%~90% 的能量，就可以得到重用的特徵並去除雜訊。

推薦系統 是利用電子商務網站向客戶提供商品信息和建議，幫助用戶決定應該購買什麼產品，模擬銷售人員幫助客戶完成購買過程。
主要有以下幾種推薦演算法：
基於內容的推薦（用到自然語言處理）， 協同過濾（主流） ，基於規則推薦（基於最多用戶點擊，最多用戶瀏覽等），混合推薦（類似集成演算法，投票決定），基於人口統計信息的推薦（根據用戶基本信息）

協同過濾推薦分為三種類型。 第一種是基於用戶(user-based)的協同過濾（需要在線找用戶和用戶之間的相似度關系），第二種是基於項目(item-based)的協同過濾（基於項目的協同過濾可以離線找物品和物品之間的相似度關系）， 第三種是基於模型(model based)的協同過濾（用戶和物品，主流）。

一般在推薦系統中，數據往往是使用用戶-物品矩陣來表示的。 用戶對其接觸過的物品進行評分，評分表示了用戶對於物品的喜愛程度，分數越高，表示用戶越喜歡這個物品。而這個矩陣往往是稀疏的，空白項是用戶還未接觸到的物品，推薦系統的任務則是選擇其中的部分物品推薦給用戶。

對於這個用戶-物品矩陣，用已有的部分稀疏數據來預測那些空白的物品和數據之間的評分關系，找到最高評分的物品推薦給用戶。

具體基於模型的方法有：
用關聯演算法做協同過濾（Apriori演算法、FP Tree演算法）
用聚類演算法做協同過濾（針對基於用戶或者基於模型，Kmeans，DBSCAN）
用分類演算法做協同過濾（設定評分閾值，高於推薦，低於不推薦，邏輯回歸和樸素貝葉斯，解釋性很強）
用回歸演算法做協同過濾（Ridge回歸，回歸樹）
用矩陣分解做協同過濾（由於傳統的奇異值分解SVD要求矩陣不能有缺失數據，必須是稠密的，而用戶物品評分矩陣是一個典型的稀疏矩陣，主要是SVD的一些變種，比如FunkSVD，BiasSVD和SVD++。這些演算法和傳統SVD的最大區別是不再要求將矩陣分解為UΣVT的形式，而變是兩個低秩矩陣PTQ的乘積形式。）
用神經網路做協同過濾（限制玻爾茲曼機RBM）

在 Python 的 numpy 中，linalg已經實現了SVD

4. 基於物品的協同過濾

參考書本：項亮, 推薦系統實踐. 2012
本文系閱讀筆記

1.網站用戶基數增多，矩陣難以構造，時空復雜度增加。

2.難以對推薦結果做出解釋。

該演算法會因為你購買過《數據挖掘導論》而給你推薦《機器學習》。不過， ItemCF 演算法並不利用物品的內容屬性計算物品之間的相似度，它主要通過分析用戶的行為記錄計算物品之間的相似度。 該演算法認為，物品 A 和物品 B 具有很大的相似度是因為喜歡物品 A 的用戶大都也喜歡物品B 。

基於物品的協同過濾演算法可以利用用戶的歷史行為給推薦結果提供推薦解釋，比如給用戶推薦《天龍八部》的解釋可以是因為用戶之前喜歡《射鵰英雄傳》。

基於物品的協同過濾演算法主要分為兩步。
(1) 計算物品之間的相似度。
(2) 根據物品的相似度和用戶的歷史行為給用戶生成推薦列表。

具體公式（ij直接的相似度）：

N(i)表示喜歡物品i的用戶數。

但是如果物品j很熱門，幾乎每個人都喜歡，則關系度會接近於1。（如可能很多人都會買《新華字典》或《哈利波特》）

為了避免推薦熱門物品，則有公式：

這個公式懲罰了物品j的權重，減輕了熱門物品會和很多物品相似的可能性。
盡管上面的公式分母已經考慮到了 j 的流行度，但在實際應用中，熱門的 j 仍然會獲得比較大的相似度。因此可在分母上進行懲罰。

但不能完全解決，兩個不同領域的最熱門物品之間往往具有比較高的相似度。這個時候，僅僅靠用戶行為數據是不能解決這個問題的，因為用戶的行為表示這種物品之間應該相似度很高。此時，我們只能依靠引入物品的內容數據解決這個問題，比如對不同領域的物品降低權重等。這些就不是協同過濾討論的范疇了。

可以首先建立用戶-物品倒排表，即每一個用戶建立一個包含他喜歡的物品的列表。

比如電影，一般來說，同系列的電影、同主角的電影、同風格的電影、同國家和地區的電影會有比較大的相似度。

在得到物品之間相似度後，itemCF運用以下公式計算用戶u對一個物品j的興趣：

S(j,K) 與物品j最相似的K個物品的集合

為物品相似度。即用戶u對物品i的興趣程度，這里可看做有過行為為1。

對既屬於用戶喜歡的物品，又在與j物品相似的物品集合內的每一個物品，得到權重相加和（即相似度乘感興趣程度）。

 精度（准確率和召回率）可以看到 ItemCF 推薦結果的精度也是不和 K 成正相關或者負相關的，因此選擇合適的 K 對獲得最高精度是非常重要的。
 流行度和 UserCF 不同，參數 K 對 ItemCF 推薦結果流行度的影響也不是完全正相關的。
隨著 K 的增加（流行物品相對增多），結果流行度會逐漸提高，但當 K 增加到一定程度，流行度就不會再有明顯變化。
 覆蓋率 K 增加會降低系統的覆蓋率（流行率增加）。

假設有這么一個用戶，他是開書店的，並且買了當當網上 80% 的書准備用來自己賣。那麼，他的購物車里包含當當網 80% 的書。假設當當網有 100 萬本書，也就是說他買了 80 萬本。從前面對 ItemCF 的討論可以看到，這意味著因為存在這么一個用戶，有 80 萬本書兩兩之間就產生了相似度，也就是說，內存里即將誕生一個 80 萬乘 80 萬的稠密矩陣。

John S. Breese 在論文中提出了一個稱為 IUF （ Inverse User Frequence ），即用戶活躍度對數的倒數的參數，他也認為活躍用戶對物品相似度的貢獻應該小於不活躍的用戶，他提出應該增加 IUF參數來修正物品相似度的計算公式：ItemCF-IUF演算法

同ItemCF相比，降低了流行度，提高了推薦結果的覆蓋率。

物品相似度歸一化。

Karypis 在研究中發現如果將 ItemCF 的相似度矩陣按最大值歸一化，可以提高推薦的准確率。
其研究表明，如果已經得到了物品相似度矩陣 w ，那麼可以用如下公式得到歸一化之後的相似度矩陣 w' ：

相似度的歸一化可以提高推薦的多樣性。[解釋看原書]

5. 協同過濾演算法

用戶行為數據在網站上最簡單的存在形式就是日誌，比如用戶在電子商務網站中的網頁瀏覽、購買、點擊、評分和評論等活動。用戶行為在個性化推薦系統中一般分兩種——顯性反饋行為(explicit feedback)和隱性反饋行為(implicit feedback)。顯性反饋行為包括用戶明確表示對物品喜好的行為。網站中收集顯性反饋的主要方式就是評分和喜歡/不喜歡。隱性反饋行為指的是那些不能明確反應用戶喜好的行為。最具代表性的隱性反饋行為就是頁面瀏覽行為。按照反饋的明確性分，用戶行為數據可以分為顯性反饋和隱性反饋，但按照反饋的方向分，又可以分為正反饋和負反饋。正反饋指用戶的行為傾向於指用戶喜歡該物品，而負反饋指用戶的行為傾向於指用戶不喜歡該物品。在顯性反饋中，很容易區分一個用戶行為是正反饋還是負反饋，而在隱性反饋行為中，就相對比較難以確定。

在利用用戶行為數據設計推薦演算法之前，研究人員首先需要對用戶行為數據進行分析，了解數據中蘊含的一般規律，這樣才能對演算法的設計起到指導作用。

(1) 用戶活躍度和物品流行度

(2) 用戶活躍度和物品流行度的關系

一般認為，新用戶傾向於瀏覽熱門的物品，因為他們對網站還不熟悉，只能點擊首頁的熱門物品，而老用戶會逐漸開始瀏覽冷門的物品。如果用橫坐標表示用戶活躍度，縱坐標表示具有某個活躍度的所有用戶評過分的物品的平均流行度。圖中曲線呈明顯下降的趨勢，這表明用戶越活躍，越傾向於瀏覽冷門的物品。

僅僅基於用戶行為數據設計的推薦演算法一般稱為協同過濾演算法。學術界對協同過濾演算法進行了深入研究，提出了很多方法，比如基於鄰域的方法(neighborhood-based)、隱語義模型 (latent factor model)、基於圖的隨機遊走演算法(random walk on graph)等。在這些方法中，最著名的、在業界得到最廣泛應用的演算法是基於鄰域的方法，而基於鄰域的方法主要包含下面兩種演算法。

基於用戶的協同過濾演算法 ：這種演算法給用戶推薦和他興趣相似的其他用戶喜歡的物品

基於物品的協同過濾演算法： 這種演算法給用戶推薦和他之前喜歡的物品相似的物品

基於鄰域的演算法是推薦系統中最基本的演算法，該演算法不僅在學術界得到了深入研究，而且在業界得到了廣泛應用。基於鄰域的演算法分為兩大類，一類是基於用戶的協同過濾演算法，另一類是基於物品的協同過濾演算法。現在我們所說的協同過濾，基本上就就是指基於用戶或者是基於物品的協同過濾演算法，因此，我們可以說基於鄰域的演算法即是我們常說的協同過濾演算法

(1) 基於用戶的協同過濾演算法（UserCF）

基於用戶的協同過濾演算法的基本思想是：在一個在線個性化推薦系統中，當一個用戶A需要個性化推薦時，可以先找到和他有相似興趣的其他用戶，然後把那些用戶喜歡的、而用戶A沒有聽說過的物品推薦給A。

Ø 從上面的描述中可以看到，基於用戶的協同過濾演算法主要包括兩個步驟。第一步：找到和目標用戶興趣相似的用戶集合。第二步：找到這個集合中的用戶喜歡的，且目標用戶沒有聽說過的物品推薦給目標用戶。

這里，步驟1的關鍵是計算兩個用戶的興趣相似度，協同過濾演算法主要利用行為的相似度計算興趣的相似度。給定用戶u和用戶v，令N(u)表示用戶u曾經有過正反饋的物品集合，令N(v) 為用戶v曾經有過正反饋的物品集合。那麼我們可以通過以下方法計算用戶的相似度：

基於餘弦相似度

(2) 基於物品的協同過濾演算法（itemCF）
與UserCF同理
(3) UserCF和itemCF的比 較

首先我們提出一個問題，為什麼新聞網站一般使用UserCF，而圖書、電商網站一般使用ItemCF呢？首先回顧一下UserCF演算法和ItemCF演算法的推薦原理。UserCF給用戶推薦那些和他有共同興趣愛好的用戶喜歡的物品，而ItemCF給用戶推薦那些和他之前喜歡的物品類似的物品。從這個算法的原理可以看到，UserCF的推薦結果著重於反映和用戶興趣相似的小群體的熱點，而ItemCF 的推薦結果著重於維系用戶的歷史興趣。換句話說，UserCF的推薦更社會化，反映了用戶所在的小型興趣群體中物品的熱門程度，而ItemCF的推薦更加個性化，反映了用戶自己的興趣傳承。在新聞網站中，用戶的興趣不是特別細化，絕大多數用戶都喜歡看熱門的新聞。個性化新聞推薦更加強調抓住新聞熱點，熱門程度和時效性是個性化新聞推薦的重點，而個性化相對於這兩點略顯次要。因此，UserCF可以給用戶推薦和他有相似愛好的一群其他用戶今天都在看的新聞，這樣在抓住熱點和時效性的同時，保證了一定程度的個性化。同時，在新聞網站中，物品的更新速度遠遠快於新用戶的加入速度，而且對於新用戶，完全可以給他推薦最熱門的新聞，因此UserCF顯然是利大於弊。

但是，在圖書、電子商務和電影網站，比如亞馬遜、豆瓣、Netflix中，ItemCF則能極大地發揮優勢。首先，在這些網站中，用戶的興趣是比較固定和持久的。一個技術人員可能都是在購買技術方面的書，而且他們對書的熱門程度並不是那麼敏感，事實上越是資深的技術人員，他們看的書就越可能不熱門。此外，這些系統中的用戶大都不太需要流行度來輔助他們判斷一個物品的好壞，而是可以通過自己熟悉領域的知識自己判斷物品的質量。因此，這些網站中個性化推薦的任務是幫助用戶發現和他研究領域相關的物品。因此，ItemCF演算法成為了這些網站的首選演算法。此外，這些網站的物品更新速度不會特別快，一天一次更新物品相似度矩陣對它們來說不會造成太大的損失，是可以接受的。同時，從技術上考慮，UserCF需要維護一個用戶相似度的矩陣，而ItemCF需要維護一個物品相似度矩陣。從存儲的角度說，如果用戶很多，那麼維護用戶興趣相似度矩陣需要很大的空間，同理，如果物品很多，那麼維護物品相似度矩陣代價較大

下表是對二者的一個全面的表較：

6. 基於協同過濾的推薦演算法

協同過濾推薦演算法是最經典的推薦演算法，它的演算法思想為 物以類聚，人以群分 ，基本的協同過濾演算法基於以下的假設：

實現協同過濾的步驟：
1). 找到相似的Top-N個人或者物品 ：計算兩兩的相似度並進行排序
2). 根據相似的人或物品產生推薦結果 ：利用Top-N生成初始推薦結果，然後過濾掉用戶已經有過記錄或者明確表示不喜歡的物品

那麼，如何計算相似度呢？

根據數據類型的不同，相似度的計算方式也不同，數據類型有：

一般的，相似度計算有 傑卡德相似度、餘弦相似度、皮爾遜相關系數

在協同過濾推薦演算法中，我們更多的是利用用戶對物品的評分數據集，預測用戶對沒有評分過的物品的評分結果。

用戶-物品的評分矩陣，根據評分矩陣的稀疏程度會有不同的解決方案。

目的：預測用戶1對於物品E的評分

步驟分析：

實現過程

用戶之間的兩兩相似度：

物品之間的兩兩相似度：

7. 協同過濾與分類

[TOC]

本文是《寫給程序員的數據挖掘實踐指南》的一周性筆記總結。主要涵蓋了以下內容：

所謂推薦系統就是系統根據你的行為操作為你推薦你可能想要的其他物品。這在電商平台、音樂平台、資訊推送平台等多有見到。而協同過濾簡單來說是利用某興趣相投、擁有共同經驗之群體的喜好來推薦用戶感興趣的信息，個人通過合作的機制給予信息相當程度的回應（如評分）並記錄下來以達到過濾的目的進而幫助別人篩選信息。其推薦基礎是用戶評分。這里可以分為兩種用戶評分，即顯式評分與隱式評分。顯式評分即日常見到的為物品打分，如對喜好音樂評級等；隱式評分是通過對用戶行為的持續性觀察，進而發現用戶偏好的一種方法，如新聞網頁中的推送你經常閱讀過的相關內容等。兩種評分方法都有自己的問題。

總體來說，協同過濾其運作機制也可以分為兩種：

基於用戶的推薦是指通過用戶的行為偏好，劃分相似用戶。在相似用戶群體之間互相推送一方喜歡而另一方未有過的物品。核心在於相似用戶群體的劃分。這種推薦方法有自己的局限：

基於用戶的過濾其核心是用戶群體的劃分，其實也就是分類。

這里的距離函數包括三種：曼哈頓距離和歐氏距離。這里以二維舉例，更多維情況下類推即可。

兩距離函數可以一般化為：

其中，當r=1時，函數為曼哈頓距離；當r=2時，函數為歐氏距離。

演算法實現：

在算出距離函數後，通過比對目標用戶與所有用戶群體的偏好，找到最近鄰的用戶並給予推薦。

基於用戶距離的推薦有一個明顯的問題，就是用戶評分體系的差異。比如評分極端的用戶給喜歡的評最高分，給不喜歡的評最低分；而有些用戶傾向於不出現極端評分。即所謂「分數貶值」( Grade Inflation )問題。這種問題的存在可能讓基於距離的評分產生偏差。皮爾遜相關系數可以緩解這種問題。

原皮爾遜相關系數公式在實際運用的時候會出現多次迭代的問題，影響計算效率，這里給出了近似公式：

皮爾遜相關系數的用戶判斷依據不是單純的用戶距離，而是用戶的評分一致性：取值在[-1, 1]之間，越接近1則表示兩用戶的評分一致性越好；反之則反。
python實現：

基於用戶推薦的過程中，另一個存在的問題就是由於大部分人的喜愛物品集合的交集過少，存在大量計算值為0的feature的情況。即所謂 稀疏性 問題。一個較容易理解的例子是對書本內容的挖掘。餘弦相似度會忽略這種0-0匹配。
餘弦相似度：

python實現：

如此多的評估系數，如何進行抉擇呢？根據數據特徵：

另外值得考慮的一點是，目前為止的推薦都是基於單用戶的。即對一個用戶的推薦系統只是基於另一個用戶。這會存在一些問題。比如雖然雖然兩者相似度很高，但是另外一個人有一些怪癖，怪癖的推薦就是不合理的；又比如，在相似度極高的情況下，你不能確定統一賬戶下的操作是同一個人做出的或者說操作行為是為了用戶自身。比如用戶考慮購買某件商品作為禮物送給別人，這就是基於別人喜好的購買行為，這種推薦也是不合適的。
對這種問題的解決可以使用群體劃分的方法。原理與單用戶類似，但是用戶的匹配是k個。在這k位最優匹配的用戶之間，以相似度的大小為依據設定權重作為物品推薦的條件。此即協同過濾的k近鄰。

正如前面提到的基於用戶的推薦有復雜度、稀疏性的問題，而基於物品的過濾則可以緩解這些問題。所謂基於物品的過濾是指，我們事先找到最相似的物品，並結合用戶對物品的評級結果來生成推薦。前提是要對物品進行相似度匹配，找到一種演算法。

這里的調整是指為了減輕用戶評分體系的不一致情況（抵消分數貶值），從每個評級結果中減去該用戶所有物品的平均分的評級結果。

其中，U表示所有同時對i， j進行評級過的用戶的集合。表示用戶u給物品i的評分減去用戶u對所有物品的評分的平均值。

在得到所有物品的餘弦相似度後，我們就可以通過該指數預測用戶對某件物品的偏好程度。方法就是所有相似物品的相似度乘以得分的總和。

其中p（u, i）指的是用戶u對物品i評分的預測值。N是用戶u的所有評級物品中每個和i得分相似的物品。這里的相似指的是矩陣中存在N和i的一個相似度得分。是i和N之間的相似度得分。是u給N的評級結果。公式較好運行的條件是取值在（-1， 1）之間，這里就要使用歸一化概念。

另一種常用的基於物品過濾的演算法就是 slope one 演算法。它的大概原理是預測用戶u對產品j的評分時，預先計算包含所有物品的兩物品偏差表；根據u的已評價的所有物品評分與該物品和產品j的偏差（）之和並乘以所有對此兩類物品有過評分的用戶個數，一一加總，除以所有同時對產品i與u評價過的所有物品有過評分的用戶的人數，得到得分。公式如下：

其中，；是利用加權s1演算法給出的用戶u對物品j的預測值。指的是對所有除j之外u打過分的物品。

python實現：

在前面兩節中，基於物品和基於用戶的過濾其前提都是用戶需要對已有的item進行評分。而實際上，如果一個新的item出現，由於缺乏別人的偏好，他永遠不會被推薦。這就是推薦系統中所謂的—— 冷啟動 問題。基於用戶評價的系統就會出現這種問題。
冷啟動 問題的解決方案之一就是 基於物品屬性的過濾 來進行推薦：對物品自身的屬性進行歸納總結，並以此進行物品推薦。基於物品屬性的過濾存在一個問題同樣是量綱的不統一。如果量綱不統一極端值將會對推薦系統造成大麻煩。解決方法也很簡單：歸一化。此章使用的是z-評分。
使用z得分也存在問題，就是極易受到離群值的影響。這里可以使用 改進的標准分數 來緩解這個問題：

什麼時候可以進行歸一化呢？

這里用曼哈頓距離舉例基於物品屬性的過濾：

在上一章最後一節對於用戶是否喜歡某件item的判別中，實際上包含了分類器的思想：分類器就是利用對象屬性判定對象屬於哪個組或類別的程序。這里簡單用另一個小項目來說明。

簡單來說就是根據運動員的某些指標來判斷這位運動員屬於什麼類別的運動員。

准確率有0.8。

8. 基於用戶協同過濾(User-CF)的推薦演算法

1. 數學必備知識(向量)

2. 構建矩陣模型

3. User-CF的思想和計算

在一個個性化推薦系統中，當一個用戶A需要個性化推薦時，可以先找和他有相似興趣的其他用戶，然後把那些用戶喜歡的、而用戶A沒有聽說過的物品推薦給A。這種方法成為基於用戶的協同過濾演算法(User-CF)

根據問題域中構建出來的用戶-行為評分矩陣(圖1-1),我們可以構建出用戶的向量.首先,把每一個用戶用一個向量表示,每個向量里有6個數字,分別代表該用戶對6本書喜愛程度的評分.0代表用戶沒看過這本書.圖示:

接下來,計算倆個用戶的相似性,這里使用的指標叫作餘弦相似度,計算公式如下:

其中,分子部分a·b表示兩個向量的點積,計算方法就是兩個向量對應元素先相乘再求和,比如:

用戶a=[4 3 0 0 5 0]和用戶b=[5 0 4 0 4 0]

a·b=4x5+3x0+0x4+0x0+5x4+0x0=40

分母部分的代表向量a的模長, 就是a,b兩個向量模長的乘積.向量模長的計算方法就是把向量

中的每個元素平方後再求和最後再開根號.

於是,第一個用戶和第二個用戶的相似度就可以進行如下計算:

餘弦相似度的值在[0,1]閉區間內,值越大說明越相似,值越小說明越不相似.根據上面的計算公式,分別計算小白和其他5個同事的相似度,然後根據從大到小的順序排列.可以看到小白和前倆個同事相似度高而和最後一個同事完全不相似.

比如,和小白最相似的兩個同事的閱讀列表編號有1,3,4,5共4本書.其中1,5這兩本書小白已經看過,3,4這兩本書哪本可能更適合小白的口味呢?

可以計算這兩個同事對這兩本書的加權評分並作為小白的可能評分,權重就是他們之間的相似度,具體計算如

下圖.通過計算可以看出編號為3的書可能更適合小白的口味.

計算步驟:

1. 先確定第一個同事擁有的閱讀列表的圖書編號為1,3,5

2. 再確定第二個同事擁有的閱讀列表的圖書編號為1,3,4,5

3. 小白自己已經擁有的閱讀的圖書列表是1,2,5[這也是打叉的意義,自己已經有的,不需要再推薦給自己了]

4. 最後剩餘的只有編號為3和編號為4的兩本書了

5. 計算公式說明,0.75和0.63代表權重,也就是相似值.4,3,5代表的是該用戶對這本書的評分.

1. 性能:適用於用戶較少的場合，如果用戶過多，計算用戶相似度矩陣的代價較大

2. 領域:實效性要求高，用戶個性化興趣要求不高

3. 實時性:用戶有新行為，不一定需要推薦結果立即變化

4. 冷啟動:在新用戶對少的物品產生行為後，不能立即對他進行個性化推薦，因為用戶相似度是離線計算的

新物品上線後一段時間，一旦有用戶對物品產生行為，就可以將新物品推薦給其他用戶

導航:首頁 > 凈水問答 > 協同過濾CF用戶對物品的評分

協同過濾CF用戶對物品的評分

與協同過濾CF用戶對物品的評分相關的資料