Flink 基础和restful API

introduction

分布式、流式处理平台 有状态,可进行统计等操作 特点: 1.高吞吐(Throughput) 2.低延迟(Latency) 3.可扩展(Scalability) 4.广泛部署(跨硬件平台)

处理流程

Data Source -> map(Transformations), filter -> Data Sink

concept

有向无环图(DAG) : 务链的图形化表示,用它来描述流处理作业的拓扑 * window tumbling windows (no overlap),

  • sliding windows (with overlap)

  • session windows (punctuated by a gap of inactivity)(经过一段设置时间,无数据认为窗口完成)

data type

数据集的类型(有界和无界)和执行模型的类型(批次与流式)

Unbounded streams 无限数据集 DataStream API (no end) Bounded streams 有限数据集 DataSet API (可以简单地被视为无界数据集的特殊情况) Real-time streams Recorded streams

setup

Flink:1.4.2

高可用集群需要zookeeper, hadoop 单机不需要

run

windows: double click flink-1.4.2-bin-scala_2.11\flink-1.4.2\bin\start-local.bat

http://localhost:8081

restful api

界面能够实现的所有操作基本上都可以用api实现:比如监控信息、操作jar和job等。

/config

/overview

/taskmanagers

/jobs

/jobs/#jobid#

/jars - jar list

....

reference

flink rest api