Mahout测试
1.安装rar工具
1 | [root@node1 software]# tar -zxf rarlinux-x64-5.3.0.tar.gz |

2.将mahout-mahout-0.9目录文件上传到指定目录下
3.运行一个Mahout案例
1 | 运行Mahout自带的Kmeans算法,同时验证安装的Mahout是否能够正常运行。 |
3.1.准备测试数据
1 | 下载文件synthetic control.data |
3.2.将下载好的数据上传到$MAHOUT_HOME/data目录下
1 | [root@node1 mahout-mahout-0.9]# mkdir data |


##4、在hdfs文件系统中创建testdata文件夹
1 | [root@node1 hadoop-2.5.1]# hadoop fs -mkdir -p /user/root/testdata |

##5、把测试数据传入到hdfs文件系统中
1 | [root@node1 hadoop-2.5.1]# hadoop fs -copyFromLocal /opt/modules/mahout-mahout-0.9/data/synthetic_control.data /user/root/testdata |

##6、然后调用mahout中的examples得jar包来跑第一个例子,将600个点的数据源进行聚类
1 | [root@node1 hadoop-2.5.1]# ./bin/hadoop jar /opt/modules/mahout-mahout-0.9/examples/target/mahout-examples-0.9-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job |


1 | 程序分别运行了3个Job任务,最后把原始数据分为六类。 |
##7、给$MAHOUT_HOME/bin/mahout目录给执行权限
1 | [root@node1 mahout-mahout-0.9]# chmod u+x ./bin/mahout |

1 | 我们可以将文件拿到当前文件夹存为test.txt文件 |
1 | [root@node1 mahout-mahout-0.9]# cat test.txt |


利用Mahout实现协同过滤
1 | 在HDFS文件系统上创建文件目录 |
1 | [root@node1 hadoop-2.5.1]# hadoop fs -mkdir -p /usr/matrix/input/file |

将数据文件上传至HDFS指定目录下
1 | [root@node1 hadoop-2.5.1]# hadoop fs -put item.txt /usr/matrix/input/file/ |

使用Mahout内置算法库,实现协同过滤
1 | [root@node1 mahout-mahout-0.9]# ./bin/mahout recommenditembased -s SIMILARITY_LOGLIKELIHOOD -i /usr/matrix/input/file/ -o /usr/matrix/output --numRecommendations 25 |

查看运行结果:
1 | [root@node1 hadoop-2.5.1]# hadoop fs -ls /usr/matrix/output |

查看命令帮助
1 | [root@node1 mahout-mahout-0.9]# ./bin/mahout recommenditembased |


本文作者 : Matrix
原文链接 : https://matrixsparse.github.io/2016/02/12/Mahout测试/
版权声明 : 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
知识 & 情怀 | 二者兼得