Flink 基础和restful API

introduction

分布式、流式处理平台有状态，可进行统计等操作特点： 1.高吞吐（Throughput） 2.低延迟（Latency） 3.可扩展（Scalability） 4.广泛部署（跨硬件平台）

Data Source -> map(Transformations), filter -> Data Sink

有向无环图(DAG) ：务链的图形化表示，用它来描述流处理作业的拓扑 * window tumbling windows (no overlap),

数据集的类型（有界和无界）和执行模型的类型（批次与流式）

Unbounded streams 无限数据集 DataStream API (no end) Bounded streams 有限数据集 DataSet API (可以简单地被视为无界数据集的特殊情况) Real-time streams Recorded streams

Flink：1.4.2

高可用集群需要zookeeper， hadoop 单机不需要

windows: double click flink-1.4.2-bin-scala_2.11\flink-1.4.2\bin\start-local.bat

http://localhost:8081

界面能够实现的所有操作基本上都可以用api实现：比如监控信息、操作jar和job等。

/config

/overview

/taskmanagers

/jobs

/jobs/#jobid#

/jars - jar list

....