Storm分布式实时流式计算框架

发布 : 2016-01-22 分类 : 大数据 浏览 :

1.离线计算是什么?

1
2
3
4
5
6
7
8
9
离线计算:批量获取数据.批量传输数据.周期性批量计算数据.数据展示
代表技术:Sqoop批量导入数据.HDFS批量存储数据.MapReduce批量计算数据.Hive批量计算数据.***任务调度
1.hivesql
2.调度平台
3.Hadoop集群运维
4.数据清洗(脚本语言)
5.元数据管理
6.数据稽查
7.数据仓库模型架构

2.流式计算是什么?

1
2
3
流式计算:数据实时产生.数据实时传输.数据实时计算.实时展示
代表技术:Flume实时获取数据.Kafka/metaq实时数据存储.Storm/JStorm实时数据计算.Redis实时结果缓存.持久化存储(mysql)
一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结果

3.离线计算与实时计算的区别?

1
最大的区别:实时收集.实时计算.实时展示

4.Storm是什么?

1
2
3
4
5
6
7
8
9
10
Flume:实时采集.低延迟
Kafka:消息队列.低延迟
Storm:实时计算.低延迟
Redis:实时存储.低延迟

Strom用来实时处理数据,
特点:低延迟.高可用.分布式.可拓展.数据不丢失。
提供简单容易理解的接口,便于开发

海量数据?数据类型很多,产生数据的终端很多,处理数据能力增强

5.Storm与Hadoop的区别?

1
2
3
4
5
Storm用于实时计算 ,Hadoop用于离线计算
Strom处理的数据保存在内存中,源源不断;
Hadoop处理的数据保存在文件系统中,一批一批
Storm的数据通过网络传输进来;Hadoop的数据保存在磁盘中
Strom与Hadoop的编程模型相似

Markdown

1
2
3
4
5
6
7
8
9
10
11
Job:任务名称
JobTracker:项目经理
TaskTracker:开发组长.产品经理
Child:负责开发的人员
Mapper/Reduce:开发人员中的两种角色,一种是服务器开发.一种是客户端开发

Topology:任务名称
Nimbus:项目经理
Supervisor:开发组长.产品经理
Worker:开发人员
Spout/Bolt:开发人员中的两种角色,一种是服务器开发.一种是客户端开发

6.Storm应用场景及行业案例

1
Storm用来实时计算源源不断产生的数据,如同流水线生产

6.1.运用场景

1
2
3
4
5
6
7
8
日志分析:
从海量日志中分析出特定的数据,并将分析的结果存入外部存储器用来辅佐决策

管道系统:
将一个数据从一个系统传输到另一个系统,比如将数据库同步到Hadoop

消息转化器:
将接受到的消息按照某种格式进行转化,存储到另外一个系统如消息中间件

6.2.典型案例

1
2
3
4
5
6
7
8
9
10
11
12
13
一淘-实时分析系统:实时分析用户的属性,并反馈给搜索引擎
最初,用户属性分析是通过每天在云梯上定时运行的MR job来完成的。
为了满足实时性的要求,希望能够实时分析用户的行为日志,将最新的用户属性反馈给搜索引擎,能够为用户展示最贴近其当前需求的结果

携程-网站性能监控:实时分析系统监控携程网的网站性能
利用HTML5提供的performance标准获得可用的指标,并记录日志。
Storm集群实时分析日志和入库。
使用DRPC聚合报表,通过历史数据对比等判断规则,触发预警事件。

阿里妈妈-用户画像:实时计算用户的兴趣数据
为了增加精准投放广告,阿里妈妈后台计算引擎需要维护每个用户的兴趣点(理想状态是,你对什么感兴趣,就向你投放哪类广告)。
用户兴趣主要基于用户的历史行为.用户的实时查询.用户的实时点击.用户的地理信息而得,其中实时查询.实时点击等用户行为都是实时数据。
考虑到系统的实时性,阿里妈妈时候用Storm维护用户兴趣数据,并在此基础上进行受众定向的广告投放。

7.Storm核心组件(重要)

Markdown

1
2
3
4
5
6
7
Nimbus:负责资源分配和任务调度
Supervisor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程
-- 通过配置文件设置当前supervisor上启动多少个worker
Worker:运行具体处理组件逻辑的进程。Worker运行的任务类型只有两种,
一种是Spout任务,一种是Bolt任务
Task:worker中每一个spout/bolt的线程称为一个task,
在storm0.8之后,task不再与物理线程对应,不同spout/bolt的task可能会共享一个物理线程,该线程称为executor

8.Storm编程模型(重要)

Markdown

1
2
3
4
5
6
Topology:Storm中运行的一个实时应用程序的名称。(拓扑)
Spout:在一个topology中获取源数据流的组件。
通常情况下,spout会从外部数据源中读取数据,然后转换为topology内部的源数据
Bolt:接受数据然后执行处理的组件,用户可以在其中执行自己的想要的操作
Tuple:一次消息传递的基本单元,理解为一组消息就是一个Tuple
Stream:表示数据的流向

9.流式计算一般架构图(重要)

Markdown

1
2
3
4
其中flume用来获取数据
Kafka用来临时保存数据
Storm用来计算数据
Redis是个内存数据库,用来保存数据
本文作者 : Matrix
原文链接 : https://matrixsparse.github.io/2016/01/22/Storm分布式实时流式计算框架/
版权声明 : 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

知识 & 情怀 | 二者兼得

微信扫一扫, 向我投食

微信扫一扫, 向我投食

支付宝扫一扫, 向我投食

支付宝扫一扫, 向我投食

留下足迹