Hive桶表
1.创建内部表
1 | hive> CREATE TABLE page_views( |

2.将page_views.dat文件中的数据加载到page_views表中
1 | hive> load data local inpath '/opt/modules/hive-1.2.1/demo/page_views.dat' into table page_views; |

3.查询page_views表中前10条数据
1 | hive> select * from page_views limit 10; |

4.查看表结构
1 | hive> desc formatted page_views; |

5.创建桶表
1 | hive> create table page_view_bucket( |

6.添加数据到表中
1 | hive> insert overwrite table page_view_bucket select * from page_views; |

1 | 查询page_view_bucket前10条数据 |

1 | 默认情况下,hive没有开启分桶属性(false) |
7.查看分桶属性是否开启
1 | hive> set hive.enforce.bucketing; |

8.开启分桶属性
1 | hive> set hive.enforce.bucketing=true; |

再次执行
1 | hive> insert overwrite table page_view_bucket select * from page_views; |

9.在HDFS的Web UI监控可以看到,重写数据进表中的时候执行了MapReduce并分配了若干个Reduce Task
1 | http://node1:50070/explorer.html#/usr/hive-1.2.1/warehouse/page_view_bucket |

本文作者 : Matrix
原文链接 : https://matrixsparse.github.io/2016/02/12/Hive桶表/
版权声明 : 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
知识 & 情怀 | 二者兼得