發布時間: 2023-01-13 15:52:09
在對大數據系統有了初步了解后,要知道大數據系統的架構其實是不一樣的,要根據企業各自的需求來選擇合適的組件來構建自己的系統,那么常見的組件有哪些呢?它們各自的作用是什么?下面介紹了大數據系統中常用的組件。
1、Hadoop
Hadoop是大數據系統的基礎組件,許多其他分布式存儲和數據處理組件都建立在它的基礎上,它是Apache旗下的一個開源軟件平臺,還包括HDFS(分布式文件系統)、YARN(運行調度系統)和MapReduce(分布式編程運算框架)。
2、HDFS
HDFS是一個用于存儲文件的分布式文件系統,由許多服務器組成,它們連接在一起,為各種分布式計算系統(MapReduce、Spark、tez)提供功能和數據存儲。
3、YARN(Yet Another Resource Negotiator),
一個負責作業調度和集群資源管理的資源協調者。
4、MapReduce
這是一個分布式計算編程組件,它將一個算法抽象成兩部分,少量的代碼可以實現大量數據的并行離線計算。
5、HIVE
這是一個基于大數據技術(文件系統+計算框架)的SQL數據倉庫工具,它將結構化的數據文件映射到數據庫表中,實現了簡單的SQL查詢,并可以將SQL語句直接轉換為MapReduce任務來執行。
6、Hbase
一個基于Hadoop的分布式海量數據庫,一個建立在HDFS上的分布式列數據庫。HBASE是Google Bigtable的一個開源實現,但有許多不同之處。
上一篇: 華為認證hcia有必要嗎
下一篇: 大數據的數據處理方法有哪些