Hive日志分析
基站掉话率分析
1 | record_time:通话时间 |
目标
1 | 找出掉线率最高的基站 |
如何使在mysql下有这种需求:
1 | select *,drop_num/duration as cdp from cdr order by cdp desc limit 1; |
1.在hive中创建表
1 | hive> create table tcdr(record_time varchar,imei int,cell varchar,ph_num int,call_num int,drop_num int,duration int,drop_rate int,net_type string,erl int) |

2.将数据加载到刚在Hive创建的表中
1 | hive> load data inpath 'hdfs:///usr/matrix/input/cdr_summ_imei_cell_info.csv' into table tcdr; |

3.查询数据并将hive查询出来的数据导出到指定文件夹下
1 | hive> insert overwrite local directory '/opt/modules/hive-1.2.1/cdp' |

4.查看数据查询结果
1 | [root@node1 ~]# cd /opt/modules/hive-1.2.1/cdp |

本文作者 : Matrix
原文链接 : https://matrixsparse.github.io/2016/02/12/hive日志分析/
版权声明 : 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
知识 & 情怀 | 二者兼得