协同过滤和矩阵分解_矩阵分解在协同过滤推荐算法中的应用

Ⅰ 07_推荐系统算法详解

基于人口统计学的推荐与用户画像、基于内容的推荐、基于协同过滤的推荐。

1、基于人口统计学的推荐机制( Demographic-based Recommendation)是一种最易于实现的推荐方法，它只是简单的根据系统用户的基本信息发现用户的相关程度，然后将相似用户喜爱的其他物品推荐给当前用户。

2、对于没有明确含义的用户信息(比如登录时间、地域等上下文信息)，可以通过聚类等手段，给用户打上分类标签。

3、对于特定标签的用户，又可以根据预设的规则(知识)或者模型，推荐出对应的物品。

4、用户信息标签化的过程一般又称为用户画像 ( User Profiling）。

（1）用户画像( User Profile)就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。

（2）用户画像为企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

（3）作为大数据的根基，它完美地抽象出一个用户的信息全貌，为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息，提供了足够的数据基础。

1、 Content- based Recommendations(CB)根据推荐物品或内容的元数据，发现物品的相关性，再基于用户过去的喜好记录，为用户推荐相似的物品。

2、通过抽取物品内在或者外在的特征值,实现相似度计算。比如一个电影,有导演、演员、用户标签UGC、用户评论、时长、风格等等，都可以算是特征。

3、将用户(user)个人信息的特征(基于喜好记录或是预设兴趣标签)，和物品(item)的特征相匹配，就能得到用户对物品感兴趣的程度。在一些电影、音乐、图书的社交网站有很成功的应用,有些网站还请专业的人员对物品进行基因编码/打标签(PGC）。

4、相似度计算：

5、对于物品的特征提取——打标签(tag)

- 专家标签(PGC）

- 用户自定义标签(UGC)

- 降维分析数据,提取隐语义标签(LFM)

对于文本信息的特征提取——关键词

- 分词、语义处理和情感分析(NLP)

- 潜在语义分析(LSA）

6、基于内容推荐系统的高层次结构

7、特征工程

（1）特征( feature)：数据中抽取出来的对结果预测有用的信息。

特征的个数就是数据的观测维度。

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。

特征工程一般包括特征清洗(采样、清洗异常样本)，特征处理和特征选择。

特征按照不同的数据类型分类，有不同的特征处理方法：数值型、类别型、时间型、统计型。

（2）数值型特征处理

      用连续数值表示当前维度特征，通常会对数值型特征进行数学上的处理，主要的做法是归一化和离散化。

        * 幅度调整归一化：

        特征与特征之间应该是平等的，区别应该体现在特征内部。

        例如房屋价格和住房面积的幅度是不同的，房屋价格可能在3000000~15000000(万)之间,而住房面积在40-300(平方米)之间，那么明明是平等的两个特征，输入到相同的模型中后由于本身的幅值不同导致产生的效果不同，这是不合理的



* 数值型特征处理——离散化

离散化的两种方式：等步长——简单但不一定有效；等频——min -> 25% -> 75% -> max

两种方法对比：

          等频的离散化方法很精准，但需要每次都对数据分布进行一遍从新计算，因为昨天用户在淘宝上买东西的价格分布和今天不一定相同，因此昨天做等频的切分点可能并不适用，而线上最需要避免的就是不固定，需要现场计算，所以昨天训练出的模型今天不一定能使用。

        等频不固定，但很精准，等步长是固定的，非常简单，因此两者在工业上都有应用。

（3）类别型特征处理

      类别型数据本身没有大小关系，需要将它们编码为数字，但它们之间不能有预先设定的大小关系，因此既要做到公平，又要区分开它们，那么直接开辟多个空间。

    One-Hot编码/哑变量：One-Hot编码/哑变量所做的就是将类别型数据平行地展开，也就是说，经过One-Hot编码哑变量后，这个特征的空间会膨胀。

（4）时间型特征处理

        时间型特征既可以做连续值,又可以看做离散值。

连续值：持续时间(网页浏览时长)；间隔时间(上一次购买/点击离现在的时间间隔)。

        离散值：一天中哪个时间段；一周中的星期几；一年中哪个月/星期；工作日/周末。

（5）统计型特征处理

      加减平均：商品价格高于平均价格多少，用户在某个品类下消费超过多少。

        分位线：商品属于售出商品价格的分位线处。

        次序性：商品处于热门商品第几位。

    比例类：电商中商品的好/中/差评比例。

8、推荐系统常见反馈数据：

9、基于UGC的推荐

用户用标签来描述对物品的看法，所以用户生成标签(UGC)是联系用户和物品的纽带，也是反应用户兴趣的重要数据源。

一个用户标签行为的数据集一般由一个三元组(用户,物品,标签)的集合表示，其中一条记录(u,i,b)表示用户u给物品打上了标签b。

一个最简单的算法：

- 统计每个用户最常用的标签

    - 对于每个标签,统计被打过这个标签次数最多的物品

- 对于一个用户，首先找到他常用的标签，然后找到具有这些标签的最热门的物品，推荐给他

- 所以用户u对物品i的兴趣公式为，其中使用户u打过标签b的次数，是物品i被打过标签b的次数。

简单算法中直接将用户打出标签的次数和物品得到的标签次数相乘，可以简单地表现出用户对物品某个特征的兴趣。

    这种方法倾向于给热门标签(谁都会给的标签,如“大片”、“搞笑”等)、热门物品(打标签人数最多)比较大的权重，如果一个热门物品同时对应着热门标签,那它就会“霸榜”，推荐的个性化、新颖度就会降低。

    类似的问题,出现在新闻内容的关键字提取中。比如以下新闻中,哪个关键字应该获得更高的权重?

10、 TF-IDF：词频逆文档频率 ( Term Frequency- -Inverse Document Frequency,TF-DF)是一种用于资讯检索与文本挖掘的常用加权技术。

      TFDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

                  TFIDF=TF IDF

     TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

    TF-DF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

       词频( Term Frequency,TF) ：指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数的归一化，以防止偏向更长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。），其中表示词语 i 在文档 j 中出现的频率，表示 i 在 j 中出现的次数，表示文档 j 的总词数。

         逆向文件频率( Inverse Document Frequency,IDF) ：是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文档数目除以包含该词语之文档的数目，再将得到的商取对数得到，其中表示词语 i 在文档集中的逆文档频率，N表示文档集中的文档总数，表示文档集中包含了词语 i 的文档数。

（11） TF-IDF对基于UGC推荐的改进：，为了避免热门标签和热门物品获得更多的权重，我们需要对“热门进行惩罚。

借鉴TF-IDF的思想，以一个物品的所有标签作为“文档”，标签作为“词语”，从而计算标签的“词频”(在物品所有标签中的频率)和“逆文档频率”(在其它物品标签中普遍出现的频率）。

由于“物品i的所有标签” 应该对标签权重没有影响，而 “所有标签总数” N 对于所有标签是一定的，所以这两项可以略去。在简单算法的基础上,直接加入对热门标签和热门物品的惩罚项：，其中，记录了标签 b 被多少个不同的用户使用过，记录了物品 i 被多少个不同的用户打过标签。

（一）协同过滤（Collaborative Filtering, CF）

1、基于协同过滤(CF)的推荐：基于内容( Content based,CB)主要利用的是用户评价过的物品的内容特征，而CF方法还可以利用其他用户评分过的物品内容。

CF可以解决CB的一些局限：

- 物品内容不完全或者难以获得时,依然可以通过其他用户的反馈给出推荐。

- CF基于用户之间对物品的评价质量，避免了CB仅依赖内容可能造成的对物品质量判断的干。

- CF推荐不受内容限制，只要其他类似用户给出了对不同物品的兴趣，CF就可以给用户推荐出内容差异很大的物品(但有某种内在联系)

    分为两类：基于近邻和基于模型。

2、基于近邻的推荐系统：根据的是相同“口碑”准则。是否应该给Cary推荐《泰坦尼克号》?

（二）基于近邻的协同过滤

1、基于用户（User-CF）：基于用户的协同过滤推荐的基本原理是，根据所有用户对物品的偏好，发现与当前用户口味和偏好相似的“邻居”用户群，并推荐近邻所偏好的物品。

在一般的应用中是采用计算“K-近邻”的算法；基于这K个邻居的历史偏好信息，为当前用户进行推荐。

User-CF和基于人口统计学的推荐机制：

- 两者都是计算用户的相似度，并基于相似的“邻居”用户群计算推荐。

- 它们所不同的是如何计算用户的相似度：基于人口统计学的机制只考虑用户本身的特征，而基于用户的协同过滤机制可是在用户的历史偏好的数据上计算用户的相似度，它的基本假设是，喜欢类似物品的用户可能有相同或者相似的口味和偏好。

2、基于物品（Item-CF）：基于项目的协同过滤推荐的基本原理与基于用户的类似，只是使用所有用户对物品的偏好，发现物品和物品之间的相似度，然后根据用户的历史偏好信息，将类似的物品推荐给用户。

Item-CF和基于内容(CB)的推荐

- 其实都是基于物品相似度预测推荐，只是相似度计算的方法不一样，前者是从用户历史的偏好推断，而后者是基于物品本身的属性特征信息。

同样是协同过滤，在基于用户和基于项目两个策略中应该如何选择呢?

- 电商、电影、音乐网站,用户数量远大于物品数量。

- 新闻网站，物品(新闻文本)数量可能大于用户数量。

3、 User-CF和Item-CF的比较

同样是协同过滤，在User-CF和ltem-CF两个策略中应该如何选择呢？

Item-CF应用场景

- 基于物品的协同过滤( Item-CF ) 推荐机制是 Amazon在基于用户的机制上改良的一种策略因为在大部分的Web站点中，物品的个数是远远小于用户的数量的，而且物品的个数和相似度相对比较稳定，同时基于物品的机制比基于用户的实时性更好一些，所以 Item-CF 成为了目前推荐策略的主流。

User-CF应用场景

- 设想一下在一些新闻推荐系统中，也许物品一一也就是新闻的个数可能大于用户的个数，而且新闻的更新程度也有很快，所以它的相似度依然不稳定，这时用 User-cf可能效果更好。

所以，推荐策略的选择其实和具体的应用场景有很大的关系。

4、基于协同过滤的推荐优缺点

（1）基于协同过滤的推荐机制的优点：

    它不需要对物品或者用户进行严格的建模，而且不要求对物品特征的描述是机器可理解的，所以这种方法也是领域无关的。

这种方法计算出来的推荐是开放的，可以共用他人的经验，很好的支持用户发现潜在的兴趣偏好。

（2）存在的问题

    方法的核心是基于历史数据，所以对新物品和新用户都有“冷启动”的问题。

        推荐的效果依赖于用户历史好数据的多少和准确性。

    在大部分的实现中，用户历史偏好是用稀疏矩阵进行存储的，而稀疏矩阵上的计算有些明显的问题，包括可能少部分人的错误偏好会对推荐的准确度有很大的影响等等。

    对于一些特殊品味的用户不能给予很好的推荐。

（三）基于模型的协同过滤

1、基本思想

（1）用户具有一定的特征，决定着他的偏好选择

（2）物品具有一定的特征，影响着用户需是否选择它。

（3）用户之所以选择某一个商品，是因为用户特征与物品特征相互匹配。

    基于这种思想，模型的建立相当于从行为数据中提取特征，给用户和物品同时打上“标签”；这和基于人口统计学的用户标签、基于内容方法的物品标签本质是一样的，都是特征的提取和匹配。

有显性特征时(比如用户标签、物品分类标签)我们可以直接匹配做出推荐；没有时，可以根据已有的偏好数据，去发据出隐藏的特征,这需要用到隐语义模型(LFM)。

2、基于模型的协同过滤推荐，就是基于样本的用户偏好信息，训练一个推荐模型,然后根据实时的用户喜好的信息进行预测新物品的得分，计算推荐

    基于近邻的推荐和基于模型的推荐

- 基于近邻的推荐是在预测时直接使用已有的用户偏好数据，通过近邻数据来预测对新物品的偏好(类似分类)

- 而基于模型的方法，是要使用这些偏好数据来训练模型，找到内在规律，再用模型来做预测(类似回归)

训练模型时，可以基于标签内容来提取物品特征，也可以让模型去发据物品的潜在特征；这样的模型被称为隐语义模型 ( Latent Factor Model,LFM)。

（1）隐语义模型(LFM)：用隐语义模型来进行协同过滤的目标：

- 揭示隐藏的特征,这些特征能够解释为什么给出对应的预测评分

    - 这类特征可能是无法直接用语言解释描述的,事实上我们并不需要知道,类似“玄学”

        通过矩阵分解进行降维分析

- 协同过滤算法非常依赖历史数据，而一般的推荐系统中，偏好数据又往往是稀疏的；这就需要对原始数据做降维处理。

- 分解之后的矩阵，就代表了用户和物品的隐藏特征

        隐语义模型的实例：基于概率的隐语义分析(pLSA)、隐式迪利克雷分布模型(LDA)、矩阵因子分解模型(基于奇异值分解的模型,SVD)

（2）LFM降维方法——矩阵因子分解

（3）LFM的进一步理解

    我们可以认为，用户之所以给电影打出这样的分数，是有内在原因的，我们可以挖掘出影响用户打分的隐藏因素，进而根据未评分电影与这些隐藏因素的关联度，决定此未评分电影的预测评分。

应该有一些隐藏的因素，影响用户的打分，比如电影：演员、题材、年代…甚至不定是人直接可以理解的隐藏因子。

找到隐藏因子，可以对user和Iiem进行关联(找到是由于什么使得user喜欢/不喜欢此Item,什么会决定user喜欢/不喜欢此item)，就可以推测用户是否会喜欢某一部未看过的电影。

（4）矩阵因子分解

（5）模型的求解——损失函数

（6）模型的求解算法——ALS

  现在，矩阵因子分解的问题已经转化成了一个标准的优化问题，需要求解P、Q，使目标损失函数取最小值。

最小化过程的求解，一般采用随机梯度下降算法或者交替最小二乘法来实现交替最小二乘法( Alternating Least Squares,ALS)

ALS的思想是，由于两个矩阵P和Q都未知,且通过矩阵乘法耦合在一起，为了使它们解耦，可以先固定Q，把P当作变量，通过损失函数最小化求出P，这就是一个经典的最小二乘问题；再反过来固定求得的P，把Q当作变量，求解出Q：如此交替执行，直到误差满足阅值条件，或者到达迭代上限。

（7）梯度下降算法

Ⅱ Amazon推荐系统是如何做到的

亚马逊使用了哪些信息进行推荐：

1）当前浏览品类

2）与当前商品经常一同购买的商品

3）用户最近浏览记录

4）用户浏览历史（长期）中的商品

5）用户浏览历史（长期）相关的商品

6）购买相同商品的其它用户购买的物品

7）已购商品的新版本

8）用户购买历史（如近期购买商品的互补品）

9）畅销商品

2、推荐系统模型：U x S → R

1）U是用户矩阵

2）S是物品矩阵

3）R是用户对物品的喜爱程度，推荐系统就是基于现有的信息填补R矩阵

3、常用推荐算法

1）基于内容：易实现，效果好，但是如何获得一个物品的内容、相似度如何定义等有些情况下会较难把握

2）协同过滤：基于物的协同过滤与基于人的协同过滤

3）矩阵分解（SVD）：用户-物品评分矩阵A很大且稀疏，将A分解为用户矩阵（用户潜在因子）和物品矩阵（物品潜在因子），目标是这两个矩阵的乘积尽可能接近R。缺点是只利用了评分信息，忽略了用户属性和物品属性

4）因子分解机（FM）：将SVD推广到多类潜因子的情况，如分解为用户、物品、用户性别、用户年龄、物品价格等多个因子，允许因子之间有相关关系（如下图，方程前半部分是线性回归，后半部分加入了两两因子间关系）

5）深度学习：训练深度神经网络，输入用户id，输出层做softmax，得到对每个物品id的权重

6）机器学习排序

7）探索与利用：先对用户聚类（如分为abcde五类），随机对a中的用户1和b中的用户2推荐电影，如果用户1没点击，2点击了，说明b类用户可能对该电影更感兴趣。

8）集成：对上述多种方法的ensemble

Ⅲ 矩阵分解在协同过滤推荐算法中的应用

矩阵分解在协同过滤推荐算法中的应用
推荐系统是当下越来越热的一个研究问题，无论在学术界还是在工业界都有很多优秀的人才参与其中。近几年举办的推荐系统比赛更是一次又一次地把推荐系统的研究推向了高潮，比如几年前的Neflix百万大奖赛，KDD CUP 2011的音乐推荐比赛，去年的网络电影推荐竞赛，还有最近的阿里巴巴大数据竞赛。这些比赛对推荐系统的发展都起到了很大的推动作用，使我们有机会接触到真实的工业界数据。我们利用这些数据可以更好地学习掌握推荐系统，这些数据网上很多，大家可以到网上下载。
推荐系统在工业领域中取得了巨大的成功，尤其是在电子商务中。很多电子商务网站利用推荐系统来提高销售收入，推荐系统为Amazon网站每年带来30%的销售收入。推荐系统在不同网站上应用的方式不同，这个不是本文的重点，如果感兴趣可以阅读《推荐系统实践》（人民邮电出版社，项亮）第一章内容。下面进入主题。
为了方便介绍，假设推荐系统中有用户集合有6个用户，即U={u1,u2,u3,u4,u5,u6}，项目（物品）集合有7个项目，即V={v1,v2,v3,v4,v5,v6,v7}，用户对项目的评分结合为R，用户对项目的评分范围是[0, 5]。R具体表示如下：

推荐系统的目标就是预测出符号“？”对应位置的分值。推荐系统基于这样一个假设：用户对项目的打分越高，表明用户越喜欢。因此，预测出用户对未评分项目的评分后，根据分值大小排序，把分值高的项目推荐给用户。怎么预测这些评分呢，方法大体上可以分为基于内容的推荐、协同过滤推荐和混合推荐三类，协同过滤算法进一步划分又可分为基于基于内存的推荐（memory-based）和基于模型的推荐（model-based），本文介绍的矩阵分解算法属于基于模型的推荐。
矩阵分解算法的数学理论基础是矩阵的行列变换。在《线性代数》中，我们知道矩阵A进行行变换相当于A左乘一个矩阵，矩阵A进行列变换等价于矩阵A右乘一个矩阵，因此矩阵A可以表示为A=PEQ=PQ（E是标准阵）。
矩阵分解目标就是把用户-项目评分矩阵R分解成用户因子矩阵和项目因子矩阵乘的形式，即R=UV，这里R是n×m， n =6， m =7，U是n×k，V是k×m。直观地表示如下：

高维的用户-项目评分矩阵分解成为两个低维的用户因子矩阵和项目因子矩阵，因此矩阵分解和PCA不同，不是为了降维。用户i对项目j的评分r_ij =innerproct(u_i, v_j)，更一般的情况是r_ij =f(U_i, V_j)，这里为了介绍方便就是用u_i和v_j内积的形式。下面介绍评估低维矩阵乘积拟合评分矩阵的方法。
首先假设，用户对项目的真实评分和预测评分之间的差服从高斯分布，基于这一假设，可推导出目标函数如下：

最后得到矩阵分解的目标函数如下：

从最终得到得目标函数可以直观地理解，预测的分值就是尽量逼近真实的已知评分值。有了目标函数之后，下面就开始谈优化方法了，通常的优化方法分为两种：交叉最小二乘法（alternative least squares）和随机梯度下降法（stochastic gradient descent）。
首先介绍交叉最小二乘法，之所以交叉最小二乘法能够应用到这个目标函数主要是因为L对U和V都是凸函数。首先分别对用户因子向量和项目因子向量求偏导，令偏导等于0求驻点，具体解法如下：

上面就是用户因子向量和项目因子向量的更新公式，迭代更新公式即可找到可接受的局部最优解。迭代终止的条件下面会讲到。
接下来讲解随机梯度下降法，这个方法应用的最多。大致思想是让变量沿着目标函数负梯度的方向移动，直到移动到极小值点。直观的表示如下：

其实负梯度的负方向，当函数是凸函数时是函数值减小的方向走；当函数是凹函数时是往函数值增大的方向移动。而矩阵分解的目标函数L是凸函数，因此，通过梯度下降法我们能够得到目标函数L的极小值（理想情况是最小值）。
言归正传，通过上面的讲解，我们可以获取梯度下降算法的因子矩阵更新公式，具体如下：

（3）和（4）中的γ指的是步长，也即是学习速率，它是一个超参数，需要调参确定。对于梯度见（1）和（2）。
下面说下迭代终止的条件。迭代终止的条件有很多种，就目前我了解的主要有
1）设置一个阈值，当L函数值小于阈值时就停止迭代，不常用
2）设置一个阈值，当前后两次函数值变化绝对值小于阈值时，停止迭代
3）设置固定迭代次数
另外还有一个问题，当用户-项目评分矩阵R非常稀疏时，就会出现过拟合（overfitting）的问题，过拟合问题的解决方法就是正则化（regularization）。正则化其实就是在目标函数中加上用户因子向量和项目因子向量的二范数，当然也可以加上一范数。至于加上一范数还是二范数要看具体情况，一范数会使很多因子为0，从而减小模型大小，而二范数则不会它只能使因子接近于0，而不能使其为0，关于这个的介绍可参考论文Regression Shrinkage and Selection via the Lasso。引入正则化项后目标函数变为：

（5）中λ_1和λ_2是指正则项的权重，这两个值可以取一样，具体取值也需要根据数据集调参得到。优化方法和前面一样，只是梯度公式需要更新一下。
矩阵分解算法目前在推荐系统中应用非常广泛，对于使用RMSE作为评价指标的系统尤为明显，因为矩阵分解的目标就是使RMSE取值最小。但矩阵分解有其弱点，就是解释性差，不能很好为推荐结果做出解释。
后面会继续介绍矩阵分解算法的扩展性问题，就是如何加入隐反馈信息，加入时间信息等。

Ⅳ 推荐系统论文阅读（二十三)-神经图协同过滤NGCF

论文：

论文题目：《Neural Graph Collaborative Filtering》

论文地址： https://arxiv.org/pdf/1905.08108.pdf

本论文是关于图结构的协同过滤算法，在原始的矩阵分解和基于深度学习的方法中，通常是通过映射描述用户（或物品）的现有特征（例如ID和属性）来获得用户（或物品）的嵌入。从而利用user和item的embedding进行协同召回。但是作者认为这种方法的固有缺点是：在user与item的interaction数据中潜伏的协作信号（collaborative signal）未在嵌入过程中进行编码。这样，所得的嵌入可能不足以捕获协同过滤效果。

让我们一起来看一下本论文是怎么利用数据中潜伏的协作信号的吧。

推荐算法被广泛的运用在各个领域中，在电商领域，社交媒体，广告等领域都发挥着至关重要的作用。推荐系统的核心内容就是根据用户以前的购买和点击行为来评估用户对一个物品的喜爱程度，从而针对每个用户进行个性化推荐。协同过滤算法认为历史行为相似的用户之间的兴趣是相同的，所以给用户推荐的是同类型用户的爱好，也就是UserCF，而ItemCF给用户推荐的是跟历史行为相近的物品。

传统的协同过滤方法要么是基于矩阵分解，要么是基于深度学习的，这两种方法都忽略了一个非常关键的信息---user和item交互的协作信号，该信号隐藏在user和item的交互过程中。原始的协同过滤方法忽略了这种信息，所以在进行user 和 item representation时就不足以较好的进行embedding。

本论文通过将用户项交互（更具体地说是二分图结构）集成到embedding过程中，开发了一个新的推荐框架神经图协同过滤（NGCF），该框架通过在其上传播embedding来利用user-item图结构。这种方法在用户项目图中进行高阶连通性的表达建模，从而以显式方式将协作信号有效地注入到embedding过程中。

在介绍模型之前先来讲解一下什么是useritem interaction以及什么是高阶的useritem interaction。

我们先看左边的图，这个图就是useritem interaction，u1是我们待推荐的用户，用双圆圈表示，他交互过的物品有i1，i2，i3。在看右边这个树形结构的图，这个图是u1的高阶interaction图，注意只有l > 1的才是u1的高阶连接。观察到，这么一条路径，u1 ← i2 ← u2，指示u1和u2之间的行为相似性，因为两个用户都已与i2进行了交互。而另一条更长的路径，u1←i2←u2←i4暗示u1可能会点击i4，因为他的相似用户u2之前已经购买过i4。另一方面，用户u1在l = 3这一层会更倾向于i4而不是i5，理由是i4到u1有两条路径而i5只有一条。

当然这种树结构是不可能通过构建真正的树节点来表示的，因为树模型比较复杂，而且结构很大，没法对每个用户构建一个树，这样工作量太大了。那么怎么设计模型结构可以达到跟这个high-order connectivity的效果呢，这个就要运用到神经网络了。通过设计一个embedding propagation layer来表示这种embedding 在每个层之间的传递。

还是拿上面那张图举例子，堆叠两层可捕获u1←i2←u2的行为相似性，堆叠三层可捕获u1←i2←u2←i4的潜在推荐以及信息流的强度（由层之间的可训练权重来评估），并确定i4和i5的推荐优先级。

这个跟传统的embedding是一样的，都是对原始的userID和itemID做embedding，跟传统embedding不同的地方是，在我们的NGCF框架中，我们通过在用户-项目交互图上传播embedding来优化embedding。由于embedding优化步骤将协作信号显式注入到embedding中，因此可以为推荐提供更有效的embedding。

这一层是本文的核心内容，下面我们来进行详细的解读。

从直观上来看，用户交互过的item会给用户的偏好带来最直接的依据。类似地，交互过某个item的用户可以视为该item的特征，并可以用来衡量两个item的协同相似性。我们以此为基础在连接的用户和项目之间执行embedding propogation，并通过两个主要操作来制定流程：消息构建和消息聚合。

Message Construction(消息构建)

对于连接的user-item对(u,i)，我们定义从i到u的消息为：

其中ei是i的embedding，eu是u的embedding，pui是用于控制每次传播的衰减因子，函数f是消息构建函数，f的定义为：

其中W1和W2用来提取有用的embedding信息，可以看到W2控制的i和u直接的交互性，这使得消息取决于ei和eu之间的亲和力，比如，传递更多来自相似项的消息。

另一个重要的地方是Nu和Ni，pui = 1/ 。Nu和Ni表示用户u和item i的第一跳邻居。从表示学习的角度来看，pui反映了历史item对用户偏好的贡献程度。从消息传递的角度来看，考虑到正在传播的消息应随路径长度衰减，因此pui可以解释为折扣因子。

Message Aggregation

聚合方法如下：

其中表示在第一嵌入传播层之后获得的用户u的表示。激活函数采用的是leakyrelu，这个函数适合对pos和neg信号进行编码。

另一个重要的信息是 ,它的定义如下：

这个信息的主要作用是保留原始的特征信息。

至此，我们得到了，同样的方法，我们也能获得，这个都是first order connectivoty的信息。

根据前面的计算方式，我们如果将多个Embedding Propagation Layers进行堆叠，我们就可以得到high order connectivity信息了：

计算方式如下：

当我看到这里的时候，我的脑子里产生了一个大大的疑惑，我们在计算第l层的eu和ei时都需要第l-1层的信息，那么我们怎么知道ei和eu在第l层是否存在呢？也就是说出现u侧的总层数l大于i侧总层数的时候，我们如何根据第l-1层的ei来计算第l层的e呢？经过思考，我感觉应该是这样的，训练样本应该是一条path，也就是这个例子是u1 ← i2 ← u2 ← i4这条path，所以可以保证u1跟i4的层数l是一样的，所以不存在上面那个层数不匹配的问题。

ps:看到后面的实验结果才知道L是固定的所以每一层都不会缺失。

还有一个就是，不同层之间的W是不一样的，每一层都有着自己的参数，这个看公式就知道，理由就是我们在提取不同层信息的时候需要不同的W进行信息提取。

另一个疑惑是pui到底是不是每一个l层都一样？这里看公式好像就是指的是第一跳的Nu和Ni进行就计算的结果。

这部分内容是为了在进行batch训练的时候进行矩阵运算所推导的数学过程，其实跟之前我们讲的那个过程在数学上的计算是完全一样的，你想象一下，如果不用矩阵进行运算，在训练过程中要如何进行这么复杂的交互运算。

当进行了l层的embedding propagation后，我们就拥有了l个eu和l个ei，我们将他们进行concate操作：

这样，我们不仅可以通过嵌入传播层丰富初始嵌入，还可以通过调整L来控制传播范围。

最后，我们进行内积计算，以评估用户对目标商品的偏好：

采用的是pair-wise方式中的bpr loss：

Ⅳ 协同过滤中als算法输出两个分解矩阵u*v什么意思

在本文中矩阵来用斜体大自写字母表示（如：R），标量用小写字母表示（如：i，j）。给定一个矩阵R，
Rij表示它的一个元素，Ri.表示矩阵R的第i行，R.j表示矩阵R的第j列，RT
表示矩阵R的转置。R-1
表示矩阵R的逆。在本文中给定的矩阵R表示具有m个用户、n个对象的评分矩阵，矩阵U、
V分别表示用户和推荐对象的特征矩阵

Ⅵ 协同过滤，矩阵分解有感

    这个概念经常在机器学习的文章中看到，但由于接触不久，所以一直都是一知半解，没有好好了解过。

首先从字面上理解，“协同”需要一个“集体“，“过滤”就应该是晒选的意思，那么协同过滤总的来说就是通过“集体”来“筛选”，以评分推荐系统为例子，这里的“协同”我个人理解就是集合”众多人的评价”，这里的“评价”，就是“对集体都接触过的事物进行打分”，这样大概就能通过一些共同的事物反应出用户不同的”价值观“，然后通过这样的价值观来”筛选“出价值观高度相似的人，再相互推荐共同都喜爱的东西。那么这样的推荐就很有可能是大家都需要的。

经过资料洗礼过后，得知cf现在的两大方向，一种是以记忆为基础（Memory-base）,另一种是基于模型（Model-based Collaborative Filtering）。

    普及的比较多的前者，它基于关注的目标，又分为基于用户的协同过滤和基于项目的协同过滤，上面举的一个简单的评分推荐系统的例子就可以说是基于用户的协同过滤，它是通过用户对共同物品的“主观价值”来筛选相似用户，再互补评分高的商品，从而达到推荐商品的目的；那么基于项目的意思就是通过这个用户集体对商品集的评价，在物品的角度上去寻找相似度高的物品，达到推荐商品的效果。虽然针对的目标不通，但以我个人理解，大体上都是依赖这个用户集营造的“价值观”，只不过区别在于，基于用户的CF是“关心”各个用户的“主观价值”上的“区别”，而基于项目的CF则是要基于这整个用户集对项目集的“普世价值观”，来甄别出“物品”上的差异。不知道这么比喻恰不恰当哈，“普世”我这边理解就是“大多数”，是一种整体趋势的意思。价值观比较“抽象”的话，再直接点这里的“价值观”就相当于物理中的“参考系”。

    但是以上两种方法在面对，不是每个用户对大多数商品都做出过评价（数据稀疏）时就无能为力，所以基于这个问题就引导出了基于模型（Model-based ）的CF，我在最近的论文中接触到的就是一个“矩阵分解”的协同过滤，它能够基于现有的数据得到一个模型，再用此模型进行推荐。那么是如何做到的呢？接下来看看矩阵分解。

假设我先在有一个关于用户对音乐评分的矩阵如下图：

    只有上述的数据是很难使用户相互推荐音乐的，因为可以看出用户本身听过的歌就不够多，那么如何使数据更加“饱满”呢？这时正是需要矩阵分解的时候，矩阵分解算法的数学理论基础是矩阵的行列变换。行列变换中又有以下规则，我们知道矩阵A进行行变换相当于A左乘一个矩阵，矩阵A进行列变换等价于矩阵A右乘一个矩阵，因此矩阵A可以表示为A=PEQ=PQ（E是标准阵）。

形象的表示如下图：

    矩阵分解的目的就是把一个稀疏的用户评分矩阵分解成用户因子矩阵和项目因子矩阵相乘的形式R=U(转置)*I，我们的目的就是最后再让两个因子矩阵反乘回去得到饱满的用户评分矩阵。那么这个用户,项目因子是个什么东西呢？我们接着上面的音乐评分的形式说，一首歌可能包含多种音乐风格，我们可以量化风格，体现各种风格在一首歌中的比重，那么这里的“潜在因子”我们就可以当作“音乐风格”，K个因子就可以看作K种风格。譬如下图：

    可以说，这些因子就是我们的模型中的重要参数，个人理解分解出来的这两个因子矩阵就可以说是基于模型的CF中的，“模型”的了，其实我觉得可以类比线性模型中的参数，我们的回归模型最终重要的不就是公式中的各项参数吗，这两个因子矩阵其实就是我们这个模型中的重要参数，参数知道了模型也就求出来了。如果不了解线性模型可以参考吴恩达大大的机器学习课程，里面介绍的很详细，不像我这边一知半哈。

    那么这些个值具体是怎么得出来的呢？过程和求线性回归也很像，接下来就是相关的简单推倒，首先，我们假设，真实的用户评分和我们预测评分的差遵循高斯分布

R用是评分矩阵 U是用户因子矩阵，V是项目因子矩阵

接下来就是极大似然估计，使，在现有数据下概率最大化

    类比求线性模型，就能够了解思想很相似，所以应该同样是运用了似然估计的思想，要使值最大，式子两边同时取对数，可以看到，如果要使概率最大，那么公式的第一项就要最小，是不是想到了什么，没错接下来就可以看到最小二乘法的式子。

线性模型我们遇到这个情况一般怎么做，没错，就是梯度下降。首先求偏导数

最后就是梯度下降的矩阵因子更新公式：

    接下来迭代到自己设置的阈值收敛就能得到局部最优解了。

    下面是我根据上述矩阵分解的思想随机的模拟实践，可以自行感受一下准度，可能写搓了点～

注释：以上诸多图片材料来自网上多篇博客文章

https://www.hu.com/question/26743347

http://blog.csdn.net/dream_angel_z/article/details/46288167

还有方便实用sklearn的中文API文档

http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030193

Ⅶ 利用 SVD 实现协同过滤推荐算法

奇异值分解(Singular Value Decomposition，以下简称SVD)
是在机器学习领域广泛应用的算法，它不光可以用于 降维算法中的特征分解 ，还可以用于 推荐系统 ，以及自然语言处理等领域。

优点： 简化数据，去除噪声，提高算法的结果。
缺点： 数据的转换可能难以理解。

应用领域： 推荐引擎（协同过滤、相似度计算）、图像压缩等。

SVD定义： 如果我们求出了矩阵A的n个特征值λ1≤λ2≤...≤λn，以及这n个特征值所对应的特征向量{w1,w2,...wn}，如果这n个特征向量线性无关，那么矩阵A就可以用下式的特征分解表示：A=WΣW−1，其中W是这n个特征向量所张成的n×n维矩阵，而Σ为这n个特征值为主对角线的n×n维矩阵。一般我们会把W的这n个特征向量标准化，即满足||wi||2=1, 或者wiTwi=1，此时W的n个特征向量为标准正交基，满WTW=I，即WT=W−1, 也就是说W为酉矩阵。要进行特征分解，矩阵A必须为方阵。那么如果A不是方阵，则用到SVD。

矩阵A的SVD为：A=UΣVT，其中U是一个m×m的矩阵，Σ是一个m×n的矩阵，除了主对角线上的元素以外全为0，主对角线上的每个元素都称为奇异值，V是一个n×n的矩阵。U和V都是酉矩阵，即满足UTU=I,VTV=I。

对于奇异值,它跟我们特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，而且奇异值的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说，我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。

因此SVD 也是一种强大的降维工具 ，可以利用 SVD 来逼近矩阵并从中获得主要的特征。通过保留矩阵的 80%~90% 的能量，就可以得到重用的特征并去除噪声。

推荐系统 是利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。
主要有以下几种推荐算法：
基于内容的推荐（用到自然语言处理）， 协同过滤（主流） ，基于规则推荐（基于最多用户点击，最多用户浏览等），混合推荐（类似集成算法，投票决定），基于人口统计信息的推荐（根据用户基本信息）

协同过滤推荐分为三种类型。 第一种是基于用户(user-based)的协同过滤（需要在线找用户和用户之间的相似度关系），第二种是基于项目(item-based)的协同过滤（基于项目的协同过滤可以离线找物品和物品之间的相似度关系）， 第三种是基于模型(model based)的协同过滤（用户和物品，主流）。

一般在推荐系统中，数据往往是使用用户-物品矩阵来表示的。 用户对其接触过的物品进行评分，评分表示了用户对于物品的喜爱程度，分数越高，表示用户越喜欢这个物品。而这个矩阵往往是稀疏的，空白项是用户还未接触到的物品，推荐系统的任务则是选择其中的部分物品推荐给用户。

对于这个用户-物品矩阵，用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系，找到最高评分的物品推荐给用户。

具体基于模型的方法有：
用关联算法做协同过滤（Apriori算法、FP Tree算法）
用聚类算法做协同过滤（针对基于用户或者基于模型，Kmeans，DBSCAN）
用分类算法做协同过滤（设定评分阈值，高于推荐，低于不推荐，逻辑回归和朴素贝叶斯，解释性很强）
用回归算法做协同过滤（Ridge回归，回归树）
用矩阵分解做协同过滤（由于传统的奇异值分解SVD要求矩阵不能有缺失数据，必须是稠密的，而用户物品评分矩阵是一个典型的稀疏矩阵，主要是SVD的一些变种，比如FunkSVD，BiasSVD和SVD++。这些算法和传统SVD的最大区别是不再要求将矩阵分解为UΣVT的形式，而变是两个低秩矩阵PTQ的乘积形式。）
用神经网络做协同过滤（限制玻尔兹曼机RBM）

在 Python 的 numpy 中，linalg已经实现了SVD

Ⅷ 协同过滤(2)： KDD2020- HyperGraph CF 基于超图

协同过滤推荐系统是当今众多推荐系统中最流行和最重要的推荐方法之一。

尽管已经被广泛采用，但是现有的基于 cf 的方法，从矩阵分解到新兴的基于图的方法， 在训练数据非常有限的情况下表现不佳 （数据稀疏问题）。

本文首先指出了造成这种不足的根本原因，并指出现有基于 CF 的方法固有的两个缺点，即: 1)用户和物品建模不灵活; 2)高阶相关性建模不足。

在这种情况下，文中提出了一个双通道超图协同过滤(DHCF)框架来解决上述问题。

首先，引入 双通道学习策略 (Dual-Channel)，全面利用分治策略，学习用户和物品的表示，使这两种类型的数据可以优雅地相互连接，同时保持其特定属性。

其次， 利用超图结构对用户和具有显式混合高阶相关性的物品进行建模 。提出了跳跃超图卷积(JHConv)方法，实现高阶关系嵌入的显式和有效传播。

推荐系统的核心是一系列的推荐算法，这些算法能够**根据用户的个人特征有效地从爆炸式信息筛选出信息。协同过滤是目前最受欢迎和广泛采用的方法之一。

CF 持有一个基本的假设，当向用户提供推荐时: 那些行为相似的人(例如，经常访问同一个网站)很可能在物品(例如，音乐、视频、网站)上分享相似的偏好。
为了实现这一点，一个典型的基于 CFbased 方法执行一个两步策略: 它首先利用历史交互区分相似的用户和项目; 然后基于上面收集的信息，向特定用户生成推荐。

现有的 CF 方法可以分为三类。

虽然 CF 方法已经研究了多年，但仍然存在局限性，特别是在训练的先验知识非常有限的情况下。为了理解这些缺陷，深入挖掘现有 CF 方法的内在机制得到以下局限性:

基于这些生成的连接组，即超边，可以分别为用户和物品构造两个超图，即两个通道的表示。本文提出了一种新的跳跃超图卷积算法(JHConv) ，该算法通过聚合邻域的嵌入并引入先验信息，有效地在超图上进行信息传播。(与传统的基于图的方法对比，用户超图和项目超图，可以更灵活地进行复杂的数据关联建模，并与不同类型的数据结合。)

超图定义为，V表示图节点，表示超边集合，超图邻接矩阵描述节点与超边的关系

在高层次上，DHCF 首先通过一个双通道超图框架学习用户和物品的两组嵌入，在此框架上，DHCF 通过计算用户和物品嵌入查找表的内积，进一步计算出用户-项目偏好矩阵。基于这样的偏好矩阵，DHCF 估计用户对某个商品感兴趣的可能性。

总体分为三步：

构建用户和物品嵌入矩阵：

为了在预定义的混合高阶关系上聚合相邻消息,执行以下高阶消息传递:

为了提取有区别的信息，我们对用户和物品定义为

综上所述，上述两个过程构成了一个集成的DHCF 层，允许对用户和物品进行明确的建模和编码，并通过强大的嵌入功能进一步更新和生成更精确的嵌入超图结构。这种精细嵌入可以进一步应用于推荐系统中的各种下游任务。

与传统 HGNNConv 相比，JHConv 允许模型同时考虑其原始特征和聚合相关表示，在另一方面，这样的 resnet结构的跳跃连接使模型能够避免由于集成了许多其他连接而导致的信息稀释。

引入高阶关联来实现构建超边，根据自定义的规则分别对用户和物品进行高阶关联提取

定义1: 物品的 k 阶可达邻居。在用户-物品交互图，更具体地说是二部图中，如果在 itemi 和 itemj 之间存在一个相邻顶点序列(即一条路) ，且该路径中的用户数小于 k，itemi (itemj)是 itemi (itemi)的 k 阶可达邻居。

定义2：物品的 k阶可达用户。在物品-用户二部图中，如果用户 j 和物品 k 之间存在直接交互作用，则用户 j 是 itemi 的 k 阶可达邻居，而物品 k 是 itemi 的 k 阶可达邻居。

对于 itemi，其 k 阶可达用户集称为。从数学上讲，超图可以定义在一个集簇上，其中每个集代表一个超边。因此，这里可以通过物品的 k 阶可达用户集构建超边。

然后在用户 k 阶可达规则的基础上构造高阶超边组，该超边组可表示为:

假设通过K阶可达规则，构造a个超边组，最后的超图需要将这a个超边组做融合，见上面的总体框架中的描述。

同理，按照相似的K阶可达的规则，对物品进行分析，构成物品的超边(N个用户，M个物品)

在实验中，每个用户观察到的交互中的10% 被随机选择用于训练，其余的数据用于测试。这样的设置增加了 CF 任务的难度，因为模型只能获取非常有限的观察到的交互。此外，由于数据的高度稀疏性，它可以很好地评价模型从有限的隐式数据集中挖掘有用信息的能力。对于所有四个数据集，每个用户至少有两个用于训练的交互。

这篇工作基于超图结构，提出了一种新的CF框架，与基于图神经网络的CF相比，超图结构更符合实际情况；此外，双通道的思路也值得借鉴，之前也分析的一篇双通道BPR的论文。近年来，基于图神经网络的推荐已经成为研究主流，而其中超图相关的工作少之又少，最近看到的另一篇是SIGIR2020上的一篇Next Item Recommendation with Sequential Hypergraphs，在超图神经网络上并没多大的改进，重点仍然在于如何用这种结构去解决存在的问题。

如果觉得有用，欢迎点赞关注赞赏，若对推荐感兴趣欢迎评论区/私信交流~~~

导航:首页 > 净水问答 > 协同过滤和矩阵分解

协同过滤和矩阵分解

与协同过滤和矩阵分解相关的资料