發布時間: 2023-03-14 16:52:24
無論你是否專門從事大數據開發,作為一名開發人員,你應該聽說過數據倉庫的概念,那么你知道數據倉庫為什么會存在嗎?數據倉庫到底是做什么的?它的價值和意義何在?那么本文就為大家帶來介紹數據倉庫。
數據倉庫是一個用于存儲、分析和報告的數據系統,其目的是建立一個面向分析的集成數據環境,為企業的分析結果提供決策支持
數據倉庫本身并不 "生產 "任何數據,其數據來自于不同的外部系統。同時,數據倉庫本身也不需要 "消費 "任何數據,其結果開放給各種外部應用程序使用。這就是為什么它被稱為 "倉庫 "而不是 "工廠"。
1、以主題為導向
主體是一個抽象的概念,是企業信息系統在數據合成、歸類和分析時使用的更高層次的抽象化。從邏輯意義上講,它對應于企業中宏觀分析領域所涉及的分析對象。
傳統OLTP系統中的數據劃分并不適用于決策分析。與以主題為基礎組織的數據不同,它們被劃分為獨立的領域,每個領域都有自己的邏輯內涵,但沒有交集,在抽象層面為數據提供完整、一致和準確的描述。
2、集成性
主題相關的數據通常分布在多個業務系統中,彼此分散、獨立、異質。該方案.
因此,在數據進入數據倉庫之前,必須對其進行統一和整合,對數據進行提取、清理、轉換和匯總,這一步是數據倉庫建設中最關鍵和最復雜的一步,需要完成的工作有:
(1)統一源數據中的所有矛盾。如字段同義詞、同義詞、單位不一致、字長不一致等。
(2)要進行數據合成和計算。數據倉庫中的數據合成工作可以在從原始數據庫中提取數據時產生,但很多是在數據倉庫內產生,即進入數據倉庫后進行合成生成。
3、非易失性、非可變性
數據倉庫是一個分析數據的平臺,而不是創造數據的平臺。我們要通過數據倉庫分析數據中的規律,而不是去創造和修改規律。因此,一旦數據進入數據倉庫,它將是穩定的,不會改變。
數據倉庫中的數據反映的是長時間的歷史數據內容,而數據倉庫用戶的操作大多是數據查詢或比較復雜的挖掘,數據一旦進入數據倉庫,一般會保留很長時間。
數據倉庫中一般有大量的查詢操作,但修改和刪除的操作卻很少。
4、時變性
數據倉庫包含不同顆粒度的歷史數據,這些數據可能與某個特定的日期、星期、月份、季度或年份有關。
當業務發生變化時,它就會失去其時效性。因此,數據倉庫中的數據需要隨著時間的推移進行更新,以適應決策的需要。
從這個角度來看,數據倉庫的建設是一個項目,而且,它是一個過程。
上一篇: TLS和SSL區別有哪些
下一篇: java三層架構及各層作用