MR去重
数据去重:
1 | "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。 |
设计思路
1 | 数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。 |
file.txt
1 | [root@node1 hadoop-2.5.1]# cat file.txt |

file2.txt
1 | [root@node1 hadoop-2.5.1]# cat file2.txt |

将file.txt,file2.txt上传到HDFS文件系统的指定目录上
1 | [root@node1 hadoop-2.5.1]# hadoop fs -ls /usr/matrix/input/file |

DisMapper.java
1 | package com.matrix.distinct; |
DisReducer.java
1 | package com.matrix.distinct; |
DisTest.java
1 | package com.matrix.distinct; |
运行结果:

本文作者 : Matrix
原文链接 : https://matrixsparse.github.io/2016/03/20/MR案例之去重/
版权声明 : 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
知识 & 情怀 | 二者兼得