introduction
分布式、流式处理平台 有状态,可进行统计等操作 特点: 1.高吞吐(Throughput) 2.低延迟(Latency) 3.可扩展(Scalability) 4.广泛部署(跨硬件平台)
处理流程
Data Source -> map(Transformations), filter -> Data Sink
concept
有向无环图(DAG) : 务链的图形化表示,用它来描述流处理作业的拓扑 * window tumbling windows (no overlap),
-
sliding windows (with overlap)
-
session windows (punctuated by a gap of inactivity)(经过一段设置时间,无数据认为窗口完成)
data type
数据集的类型(有界和无界)和执行模型的类型(批次与流式)
Unbounded streams 无限数据集 DataStream API (no end) Bounded streams 有限数据集 DataSet API (可以简单地被视为无界数据集的特殊情况) Real-time streams Recorded streams
setup
Flink:1.4.2
高可用集群需要zookeeper, hadoop 单机不需要
run
windows: double click flink-1.4.2-bin-scala_2.11\flink-1.4.2\bin\start-local.bat
http://localhost:8081
restful api
界面能够实现的所有操作基本上都可以用api实现:比如监控信息、操作jar和job等。
/config
/overview
/taskmanagers
/jobs
/jobs/#jobid#
/jars - jar list
....