开发Shell采集脚本
1.需求说明
1 | 点击流日志每天都10T,在业务应用服务器上,需要准实时上传至数据仓库(Hadoop HDFS)上 |
2.需求分析
1 | 一般上传文件都是在凌晨24点操作,由于很多种类的业务数据都要在晚上进行传输,为了减轻服务器的压力,避开高峰期 |
3.技术分析
1 | HDFS Shell:hadoop fs -put xxxx.tar /data 还可以使用Java Api |
4.实现流程
1 | 日志产生程序将日志生成后,产生一个一个的文件,使用滚动模式创建文件名 |
1 | log4j.logger.msg=info,msg |
细节:
1 | 1、如果日志文件后缀是1\2\3等数字,该文件满足需求可以上传的话。把该文件移动到准备上传的工作区间 |
伪代码
1 | 使用ls命令读取指定路径下的所有文件信息 |
效果展示及操作步骤
1 | 1、日志收集文件接收数据,并将数据保存起来,效果如下: |
本文作者 : Matrix
原文链接 : https://matrixsparse.github.io/2016/05/23/开发shell采集脚本/
版权声明 : 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
知识 & 情怀 | 二者兼得