Storm分布式实时流式计算框架 | 每天，遇到更好的你

1.离线计算是什么？

离线计算：批量获取数据.批量传输数据.周期性批量计算数据.数据展示
代表技术：Sqoop批量导入数据.HDFS批量存储数据.MapReduce批量计算数据.Hive批量计算数据.***任务调度
1.hivesql
2.调度平台
3.Hadoop集群运维
4.数据清洗(脚本语言)
5.元数据管理
6.数据稽查
7.数据仓库模型架构

2.流式计算是什么？

1
2
3

流式计算：数据实时产生.数据实时传输.数据实时计算.实时展示
代表技术：Flume实时获取数据.Kafka/metaq实时数据存储.Storm/JStorm实时数据计算.Redis实时结果缓存.持久化存储(mysql)
一句话总结：将源源不断产生的数据实时收集并实时计算，尽可能快的得到计算结果

3.离线计算与实时计算的区别？

1	最大的区别：实时收集.实时计算.实时展示

4.Storm是什么？

Flume：实时采集.低延迟
Kafka：消息队列.低延迟
Storm：实时计算.低延迟
Redis：实时存储.低延迟

Strom用来实时处理数据，
特点：低延迟.高可用.分布式.可拓展.数据不丢失。
提供简单容易理解的接口，便于开发

海量数据？数据类型很多，产生数据的终端很多，处理数据能力增强

5.Storm与Hadoop的区别？

Storm用于实时计算 ，Hadoop用于离线计算
Strom处理的数据保存在内存中，源源不断；
Hadoop处理的数据保存在文件系统中，一批一批
Storm的数据通过网络传输进来；Hadoop的数据保存在磁盘中
Strom与Hadoop的编程模型相似

Markdown

Job：任务名称
JobTracker：项目经理
TaskTracker：开发组长.产品经理
Child：负责开发的人员
Mapper/Reduce：开发人员中的两种角色，一种是服务器开发.一种是客户端开发

Topology：任务名称
Nimbus：项目经理
Supervisor：开发组长.产品经理
Worker：开发人员
Spout/Bolt：开发人员中的两种角色，一种是服务器开发.一种是客户端开发

6.Storm应用场景及行业案例

1	Storm用来实时计算源源不断产生的数据，如同流水线生产

6.1.运用场景

日志分析：
从海量日志中分析出特定的数据，并将分析的结果存入外部存储器用来辅佐决策

管道系统：
将一个数据从一个系统传输到另一个系统，比如将数据库同步到Hadoop

消息转化器：
将接受到的消息按照某种格式进行转化，存储到另外一个系统如消息中间件

6.2.典型案例

一淘-实时分析系统：实时分析用户的属性，并反馈给搜索引擎
最初，用户属性分析是通过每天在云梯上定时运行的MR job来完成的。
为了满足实时性的要求，希望能够实时分析用户的行为日志，将最新的用户属性反馈给搜索引擎，能够为用户展示最贴近其当前需求的结果

携程-网站性能监控：实时分析系统监控携程网的网站性能
利用HTML5提供的performance标准获得可用的指标，并记录日志。
Storm集群实时分析日志和入库。
使用DRPC聚合报表，通过历史数据对比等判断规则，触发预警事件。

阿里妈妈-用户画像：实时计算用户的兴趣数据
为了增加精准投放广告，阿里妈妈后台计算引擎需要维护每个用户的兴趣点(理想状态是，你对什么感兴趣，就向你投放哪类广告)。
用户兴趣主要基于用户的历史行为.用户的实时查询.用户的实时点击.用户的地理信息而得，其中实时查询.实时点击等用户行为都是实时数据。
考虑到系统的实时性，阿里妈妈时候用Storm维护用户兴趣数据，并在此基础上进行受众定向的广告投放。

7.Storm核心组件(重要)

Markdown

Nimbus：负责资源分配和任务调度
Supervisor：负责接受nimbus分配的任务，启动和停止属于自己管理的worker进程
-- 通过配置文件设置当前supervisor上启动多少个worker
Worker：运行具体处理组件逻辑的进程。Worker运行的任务类型只有两种，
一种是Spout任务，一种是Bolt任务
Task：worker中每一个spout/bolt的线程称为一个task，
在storm0.8之后，task不再与物理线程对应，不同spout/bolt的task可能会共享一个物理线程，该线程称为executor

8.Storm编程模型(重要)

Markdown

Topology：Storm中运行的一个实时应用程序的名称。(拓扑)
Spout：在一个topology中获取源数据流的组件。
通常情况下，spout会从外部数据源中读取数据，然后转换为topology内部的源数据
Bolt：接受数据然后执行处理的组件，用户可以在其中执行自己的想要的操作
Tuple：一次消息传递的基本单元，理解为一组消息就是一个Tuple
Stream：表示数据的流向

9.流式计算一般架构图(重要)

Markdown

其中flume用来获取数据
Kafka用来临时保存数据
Storm用来计算数据
Redis是个内存数据库，用来保存数据