CF推荐算法的概念是什么

201次阅读

共计 2265 个字符，预计需要花费 6 分钟才能阅读完成。

这篇文章主要介绍“CF 推荐算法的概念是什么”，在日常操作中，相信很多人在 CF 推荐算法的概念是什么问题上存在疑惑，丸趣 TV 小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”CF 推荐算法的概念是什么”的疑惑有所帮助！接下来，请跟着丸趣 TV 小编一起来学习吧！

一、协同过滤算法描述

推荐系统应用数据分析技术，找出用户最可能喜欢的东西推荐给用户，现在很多电子商务网站都有这个应用。目前用的比较多、比较成熟的推荐算法是协同过滤（Collaborative Filtering，简称 CF）推荐算法，CF 的基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品。

如图 1 所示，在 CF 中，用 m×n 的矩阵表示用户对物品的喜好情况，一般用打分表示用户对物品的喜好程度，分数越高表示越喜欢这个物品，0 表示没有买过该物品。图中行表示一个用户，列表示一个物品，Uij 表示用户 i 对物品 j 的打分情况。CF 分为两个过程，一个为预测过程，另一个为推荐过程。预测过程是预测用户对没有购买过的物品的可能打分值，推荐是根据预测阶段的结果推荐用户最可能喜欢的一个或 Top- N 个物品。

二、User-based 算法与 Item-based 算法对比

CF 算法分为两大类，一类为基于 memory 的（Memory-based），另一类为基于 Model 的（Model-based），User-based 和 Item-based 算法均属于 Memory-based 类型，具体细分类可以参考 wikipedia 的说明。

User-based 的基本思想是如果用户 A 喜欢物品 a，用户 B 喜欢物品 a、b、c，用户 C 喜欢 a 和 c，那么认为用户 A 与用户 B 和 C 相似，因为他们都喜欢 a，而喜欢 a 的用户同时也喜欢 c，所以把 c 推荐给用户 A。该算法用最近邻居（nearest-neighbor）算法找出一个用户的邻居集合，该集合的用户和该用户有相似的喜好，算法根据邻居的偏好对该用户进行预测。

User-based 算法存在两个重大问题：

1. 数据稀疏性。一个大型的电子商务推荐系统一般有非常多的物品，用户可能买的其中不到 1% 的物品，不同用户之间买的物品重叠性较低，导致算法无法找到一个用户的邻居，即偏好相似的用户。

2. 算法扩展性。最近邻居算法的计算量随着用户和物品数量的增加而增加，不适合数据量大的情况使用。

Iterm-based 的基本思想是预先根据所有用户的历史偏好数据计算物品之间的相似性，然后把与用户喜欢的物品相类似的物品推荐给用户。还是以之前的例子为例，可以知道物品 a 和 c 非常相似，因为喜欢 a 的用户同时也喜欢 c，而用户 A 喜欢 a，所以把 c 推荐给用户 A。

因为物品直接的相似性相对比较固定，所以可以预先在线下计算好不同物品之间的相似度，把结果存在表中，当推荐时进行查表，计算用户可能的打分值，可以同时解决上面两个问题。

三、Item-based 算法详细过程

（1）相似度计算

Item-based 算法首选计算物品之间的相似度，计算相似度的方法有以下几种：

1. 基于余弦（Cosine-based）的相似度计算，通过计算两个向量之间的夹角余弦值来计算物品之间的相似性，公式如下：

其中分子为两个向量的内积，即两个向量相同位置的数字相乘。

2. 基于关联（Correlation-based）的相似度计算，计算两个向量之间的 Pearson- r 关联度，公式如下：

其中表示用户 u 对物品 i 的打分，表示第 i 个物品打分的平均值。

3. 调整的余弦（Adjusted Cosine）相似度计算，由于基于余弦的相似度计算没有考虑不同用户的打分情况，可能有的用户偏向于给高分，而有的用户偏向于给低分，该方法通过减去用户打分的平均值消除不同用户打分习惯的影响，公式如下：

其中表示用户 u 打分的平均值。

（2）预测值计算

根据之前算好的物品之间的相似度，接下来对用户未打分的物品进行预测，有两种预测方法：

1. 加权求和。

用过对用户 u 已打分的物品的分数进行加权求和，权值为各个物品与物品 i 的相似度，然后对所有物品相似度的和求平均，计算得到用户 u 对物品 i 打分，公式如下：

其中为物品 i 与物品 N 的相似度，为用户 u 对物品 N 的打分。

2. 回归。

和上面加权求和的方法类似，但回归的方法不直接使用相似物品 N 的打分值，因为用余弦法或 Pearson 关联法计算相似度时存在一个误区，即两个打分向量可能相距比较远（欧氏距离），但有可能有很高的相似度。因为不同用户的打分习惯不同，有的偏向打高分，有的偏向打低分。如果两个用户都喜欢一样的物品，因为打分习惯不同，他们的欧式距离可能比较远，但他们应该有较高的相似度。在这种情况下用户原始的相似物品的打分值进行计算会造成糟糕的预测结果。通过用线性回归的方式重新估算一个新的值，运用上面同样的方法进行预测。重新计算的方法如下：