❶ 推荐算法之模型协同过滤(1)-关联规则
关联规则是数据挖掘中的典型问题之一,又被称为购物篮分析,这是因为传统的关联规则案例大多发生在超市中,例如所谓的啤酒与尿布传说。事实上,“购物篮”这个词也揭示了关联规则挖掘的一个重要特点:以交易记录为研究对象,每一个购物篮(transaction)就是一条记录。关联规则希望挖掘的规则就是:哪些商品会经常在同一个购物篮中出现,其中有没有因果关系。为了描述这种“经常性”及“因果关系”,分析者定义了几个指标,基于这些指标来筛选关联规则,从而得到那些不平凡的规律。
(1)计算支持度
支持度计数:一个项集出现在几个事务当中,它的支持度计数就是几。例如{Diaper, Beer}出现在事务 002、003和004中,所以它的支持度计数是3
支持度:支持度计数除于总的事务数。例如上例中总的事务数为4,{Diaper, Beer}的支持度计数为3,所以它的支持度是3÷4=75%,说明有75%的人同时买了Diaper和Beer。
(2)计算置信度
置信度:对于规则{Diaper}→{Beer},{Diaper, Beer}的支持度计数除于{Diaper}的支持度计数,为这个规则的置信度。例如规则{Diaper}→{Beer}的置信度为3÷3=100%。说明买了Diaper的人100%也买了Beer。
一般地,关联规则被划分为动态推荐,而协同过滤则更多地被视为静态推荐。
所谓动态推荐,就是推荐的基础是且只是当前一次(最近一次)的购买或者点击。譬如用户在网站上看了一个啤酒,系统就找到与这个啤酒相关的关联规则,然后根据这个规则向用户进行推荐。而静态推荐则是在对用户进行了一定分析的基础上,建立了这个用户在一定时期内的偏好排序,然后在这段时期内持续地按照这个排序来进行推荐。由此可见,关联规则与协同过滤的策略思路是完全不同的类型。
事实上,即便在当下很多能够拿到用户ID的场景,使用动态的关联规则推荐仍然是值得考虑的一种方法(尤其是我们经常把很多推荐方法的结果综合起来做一个混合的推荐),因为这种方法的逻辑思路跟协同过滤有着本质的不同,问题似乎仅仅在于:个人的偏好到底有多稳定,推荐到底是要迎合用户的长期偏好还是用户的当下需求。
挖掘关联规则主要有Apriori算法和FP-Growth算法。后者解决了前者由于频繁的扫描数据集造成的效率低下缺点。以下按照Apriori算法来讲解。
step 1: 扫描数据集生成满足最小支持度的频繁项集。
step 2: 计算规则的置信度,返回满足最小置信度的规则。
如下所示,当用户购买1商品时推荐2、3商品
❷ 大数据分析领域有哪些分析模型
数据挖掘和分析领域涉及多种模型,旨在从大量数据中提取有价值的信息。以下是几种常见的分析模型:
1. 降维模型
在处理大数据集时,高维度数据可能导致计算复杂度和存储需求增加。降维模型如主成分分析(PCA)和t-SNE,旨在减少数据集的维度,同时保留最重要的信息。
2. 回归模型
回归模型用于分析自变量与因变量之间的关系。线性回归是最基础的形式,它假设关系是线性的。通过建立数学方程,回归模型可以预测因变量的值。
3. 聚类模型
聚类模型如K-means和层次聚类,将数据点分组,使得同一组内的数据点相似度更高。这些模型有助于发现数据中的自然分组或模式。
4. 分类模型
分类模型如决策树和SVM,通过学习已标记数据的特征来预测新数据的类别。这些模型在二分类或多分类问题中非常有用。
5. 关联规则模型
关联规则模型如Apriori算法,用于发现大数据集中的物品或事件之间的有趣关系。例如,超市购物篮分析可以发现顾客购买某些商品的倾向。
6. 时间序列模型
时间序列模型如ARIMA和季节性分解时间序列预测(SARIMA),用于分析和预测数据随时间的变化趋势。
7. 异常检测模型
异常检测模型如孤立森林和高斯混合模型,用于识别数据集中的异常值或离群点。这些模型在欺诈检测和安全监控等领域非常重要。
8. 协同过滤模型
协同过滤模型通过分析用户行为和偏好,为用户推荐物品。这种模型广泛应用于电影、音乐和商品推荐系统中。
9. 主题模型
主题模型如隐含狄利克雷分配(LDA),用于文本数据的分析,以识别文档集合中的主题分布。
10. 路径和归因模型
路径分析、漏斗分析和归因模型,用于理解用户如何通过一系列步骤达成特定目标或完成转化。这些模型在在线营销和用户行为分析中尤为重要。
这些模型各自有不同的应用场景和优势,它们在数据分析和挖掘领域中扮演着关键角色。