Flink带头大哥2019/02/23         
我们知道,Flink是一个分层架构的系统,每一层所包含的组件都提供了特定的抽象,用来服务于上层组件。Flink分层的组件栈如下图所示:
掌握了Flink的分层架构,后面的学习就可以围绕每个层级的核心内容来学习或研究。
Flink一共分为四个层级,具体如下图所示:
Flink 最下面的一层API为Stateful Stream Processing,它是Flink最底层的API,控制更灵活但一般很少使用。然后上面一层就是Flink Core(核心)API,它包含DataStream和DataSet API,应用层的用户经常使用 Core API。然后再上面一层就是 Table API,它相当于在Core API中可以定义数据的Table结构,可以做table操作。最上面一层就是SQL 操作,用户可以直接使用SQL语句对数据处理,更简单更方便。
注意:越底层的API越灵活,但越复杂。越上层的API越轻便,但灵活性差。
1. Stateful Stream Processing
a)它位于最底层,是Core API 的底层实现。
b)它是嵌入到Stream流里面的处理函数(processFunction)。
c)当Core API满足不了用户需求,可以利用低阶API构建一些新的组件或者算子。
d)它虽然灵活性高,但开发比较复杂,需要具备一定的编码能力。
2. Core API
a) DataSet API 是批处理API,处理有限的数据集。
b) DataStream API是流处理API,处理无限的数据集。
3. Table API & SQL
a)SQL 构建在Table 之上,都需要构建Table 环境。
b)不同的类型的Table 构建不同的Table 环境中。
c)Table 可以与DataStream或者DataSet进行相互转换。
d)Streaming SQL不同于存储的SQL,最终会转化为流式执行计划。
157****3058 2019/04/08
回复