Mahout实战案例--Dating Recommender 系统

文章由LinuxBoy分享于2019-03-29 07:03:19热评（29）

Mahout实战案例--Dating Recommender 系统

软件版本：

Hadoop：2.6.0； Mahout：1.0（自行编译，只使用了两个jar文件）；Spring：4.0.2；Struts：2.3；Hibernate：4.3；jQuery EasyUI ：1.3.6；MySql：5.6；浏览器：chrome；MyEclipse：10.0；

Hadoop平台配置：

node1: NameNode/ResourceManger/DataNode/NodeManager Memory:2G

node2: NodeManager/DataNode/SecondaryNameNode/JobHistoryServer Memory:1.5G

node3: NodeManager/DataNode Memory:1.5G

代码下载：

------------------------------------------分割线------------------------------------------

FTP地址：ftp://ftp1.bkjia.com

用户名：ftp1.bkjia.com

密码：www.bkjia.com

在 2015年LinuxIDC.com\3月\Mahout实战案例--Dating Recommender 系统

下载方法见

------------------------------------------分割线------------------------------------------

系统运行：

（其中ratings.dat和gender.dat文件需要从 http://www.occamslab.com/petricek/data/下载）

1. 数据库部分：

1）修改configuration/db.properties 文件，改为用户自己的用户名、密码以及数据库；

2）启动tomcat，让Hibernate自动生成相关表。启动后可以看到数据库中有下面的表：

拷贝sql/treenode.sql中的第49行语句到命令行执行，然后浏览器访问tomcat发布的项目，比如这里的http://localhost:80/rec/ (或者http://localhost/rec/basic.jsp)即可访问项目主页，界面如下：

Mahout实战案例--Dating Recommender 系统

3) 下载相关数据文件，下载解压后文件如下：

修改configuration/util.properties文件中相应文件的路径，修改rating.proportion，该比例为数据ratings.dat分隔的比例，由于云平台运行协同过滤算法比较耗时，而且消耗内存较大，如果使用全部数据（245M）那么运行CF算法时会比较慢，这里采取上传一部分数据的方法，即先对ratings.dat进行分割，然后上传较小比例到云平台进行计算。如果使用的云平台计算资源较充分，可以设置该比例为1，同时上传较大的文件；

4）初始化用户基本信息表（即gender.dat数据入库）

在浏览器导航列表中选择“用户表初始化”或者在右上角系统设置中点击“初始化用户表”进行用户表数据导入；插入完成后，浏览器会有提示：

tomcat会有日志提示有插入耗时以及数据量，在数据库中查询t_user表中的记录数和此数据量相同；

5）插入用户评分数据（即ratings.dat数据入库）

由于此数据量较大，所以不使用Hibernate插入，而直接使用命令行的方式插入。拷贝sql/import_ratings.sql中的第4行命令（需修改ratings.dat文件位置）到mysql编辑器执行（或者dos命令窗口执行也行），一般耗时300s左右；插入完成后，可以查询到表t_user_item_pref有 17359346条记录。

由于后面会根据userid进行查询，所以这里加上索引，运行第16行命令，一般耗时：4mins。

2. 云平台数据部分

1）分割ratings.dat文件

点击浏览器右上角系统设置的“分割Rating数据” ，即可分割数据，分割完成后会给出下面的提示：

，后台也会提示数据分割完成！