大數據培訓_Flink業界認可度高的開源流處理引擎
1.Flink定義
Flink是一個批處理和流處理結合的統一計算框架,其核心是一個提供了數據分發以及并行化計算的流數據處理引擎。它的較大亮點是流處理,是業界認可度高的開源流處理引擎。
2.Flink特點
Flink與Storm類似,屬于事件驅動型實時流系統。Flink簡單地說其實是結合了SparkStreaming處理實時的數據量“大”與Strom毫秒級實時的“快”兩者的優點應運而生的認可度高的開源流處理引擎。
有以下四大特點:
- Streaming-first流處理引擎
- Fault-tolerant容錯,可靠性,checkpoint
- Scalable可擴展性,1000節點以上
- Performance性能,高吞吐量,低延遲
3.Flink應用場景
Flink最適合的應用場景是低時延的數據處理場景:高并發處理數據,時延毫秒級,且兼具可靠性。
典型應用場景有:
4.Flink關鍵特性
提供ms級時延的處理能力。
提供異步快照機制,保證所有數據真正只處理一次。
JobManager支持主備模式,保證無單點故障。
TaskManager支持手動水平擴展。
5.Flink與hadoop結合
?
- Flink能夠支持Yarn,能夠從HDFS和HBase中獲取數據;
- 能夠使用所有的Hadoop的格式化輸入和輸出;
- 能夠使用Hadoop原有的Mappers和Reducers,并且能與Flink的操作混合使用;
- 能夠更快的運行Hadoop的作業。
6.Flink與流式計算框架的性能對比
?
7.Flink架構
?
8.Flink核心概念 - DataStream
DataStream:Flink用類DataStream來表示程序中的流式數據。用戶可以認為它們是含有重復數據的不可修改的集合(collection),DataStream中元素的數量是無限的。