巖康教育老師直接接聽

400-029-09** 400-029-0997 轉(zhuǎn) 147738
查看完整號碼
掃碼撥號
微信掃碼撥號

技術(shù)充電站 | 數(shù)據(jù)倉庫概述

來源:巖康實訓 2022/11/9 15:38:30

數(shù)據(jù)倉庫概述,關(guān)注不迷路…

1. 基本概念

英文名稱為Data Warehouse,可簡寫為DW或DWH。數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(Decision Support)。

數(shù)據(jù)倉庫是存數(shù)據(jù)的,企業(yè)的各種數(shù)據(jù)往里面存,主要目的是為了分析有效數(shù)據(jù),后續(xù)會基于它產(chǎn)出供分析挖掘的數(shù)據(jù),或者數(shù)據(jù)應用需要的數(shù)據(jù),如企業(yè)的分析性報告和各類報表等。

可以理解為:面向分析的存儲系統(tǒng)。

2. 主要特征

數(shù)據(jù)倉庫是面向主題的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volatile)和時變的(Time-Variant )數(shù)據(jù)集合,用以支持管理決策。

1)面向主題

數(shù)據(jù)倉庫是面向主題的,數(shù)據(jù)倉庫通過一個個主題域?qū)⒍鄠€業(yè)務系統(tǒng)的數(shù)據(jù)加載到一起,為了各個主題(如:用戶、訂單、商品等)進行分析而建,操作型數(shù)據(jù)庫是為了支撐各種業(yè)務而建立。

2)集成性

數(shù)據(jù)倉庫會將不同源數(shù)據(jù)庫中的數(shù)據(jù)匯總到一起,數(shù)據(jù)倉庫中的綜合數(shù)據(jù)不能從原有的數(shù)據(jù)庫系統(tǒng)直接得到。因此在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必然要經(jīng)過統(tǒng)一與整合,這一步是數(shù)據(jù)倉庫建設中關(guān)鍵、復雜的一步(ETL),要統(tǒng)一源數(shù)據(jù)中所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、字長不一致,等等。

3)非易失性

操作型數(shù)據(jù)庫主要服務于日常的業(yè)務操作,使得數(shù)據(jù)庫需要不斷地對數(shù)據(jù)實時更新,以便迅速獲得當前最新數(shù)據(jù),不至于影響正常的業(yè)務運作。

在數(shù)據(jù)倉庫中只要保存過去的業(yè)務數(shù)據(jù),不需要每一筆業(yè)務都實時更新數(shù)據(jù)倉庫,而是根據(jù)商業(yè)需要每隔一段時間把一批較新的數(shù)據(jù)導入數(shù)據(jù)倉庫。

數(shù)據(jù)倉庫的數(shù)據(jù)反映的是一段相當長的時間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時點的數(shù)據(jù)庫的集合,以及基于這些快照進行統(tǒng)計、綜合和重組的導出數(shù)據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)一般僅執(zhí)行查詢操作,很少會有刪除和更新。但是需定期加載和刷新數(shù)據(jù)。

4)時變性

數(shù)據(jù)倉庫包含各種粒度的歷史數(shù)據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)可能與某個特定日期、星期、月份、季度或者年份有關(guān)。數(shù)據(jù)倉庫的目的是通過分析企業(yè)過去一段時間業(yè)務的經(jīng)營狀況,挖掘其中隱藏的模式。雖然數(shù)據(jù)倉庫的用戶不能修改數(shù)據(jù),但并不是說數(shù)據(jù)倉庫的數(shù)據(jù)是永遠不變的。分析的結(jié)果只能反映過去的情況,當業(yè)務變化后,挖掘出的模式會失去時效性。因此數(shù)據(jù)倉庫的數(shù)據(jù)需要定時更新,以適應決策的需要。

3. 數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別

首先,數(shù)據(jù)倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫。數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它決不是所謂的“大型數(shù)據(jù)庫”。兩者的差別體現(xiàn)在以下幾點:

數(shù)據(jù)庫是面向事務的設計,數(shù)據(jù)倉庫是面向主題設計的

數(shù)據(jù)庫一般存儲業(yè)務數(shù)據(jù),數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)

數(shù)據(jù)庫設計是盡量避免冗余,一般針對某一業(yè)務應用進行設計,比如一張簡單的User表,記錄用戶名、密碼等簡單數(shù)據(jù)即可,符合業(yè)務應用,但是不符合分析。數(shù)據(jù)倉庫在設計是有意引入冗余,依照分析需求,分析維度、分析指標進行設計

數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設計,數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設計

4. 數(shù)據(jù)倉庫的分層架構(gòu)

按照數(shù)據(jù)流入流出的過程,數(shù)據(jù)倉庫架構(gòu)可分為三層——源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應用。

源數(shù)據(jù)層(ODS):此層數(shù)據(jù)無任何更改,直接沿用外圍系統(tǒng)數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù),不對外開放;為臨時存儲層,是接口數(shù)據(jù)的臨時存儲區(qū)域,為后一步的數(shù)據(jù)處理做準備。

數(shù)據(jù)倉庫層(DW):也稱為細節(jié)層,DW層的數(shù)據(jù)應該是一致的、準確的、干凈的數(shù)據(jù),即對源系統(tǒng)數(shù)據(jù)進行了清洗(去除了雜質(zhì))后的數(shù)據(jù)。

數(shù)據(jù)應用層(DA或APP):前端應用直接讀取的數(shù)據(jù)源;根據(jù)報表、專題分析需求而計算生成的數(shù)據(jù)。

數(shù)據(jù)倉庫從各數(shù)據(jù)源獲取數(shù)據(jù)及在數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)轉(zhuǎn)換和流動都可以認為是ETL(抽取Extract, 轉(zhuǎn)化Transfer, 裝載Load)的過程,ETL是數(shù)據(jù)倉庫的流水線,也可以認為是數(shù)據(jù)倉庫的血液,它維系著數(shù)據(jù)倉庫中數(shù)據(jù)的新陳代謝,而數(shù)據(jù)倉庫日常的管理和維護工作的大部分精力就是保持ETL的正常和穩(wěn)定。

Q:為什么要對數(shù)據(jù)倉庫進行分層?

A:用空間換時間,通過大量的預處理來提升應用系統(tǒng)的用戶體驗(效率),因此數(shù)據(jù)倉庫會存在大量冗余的數(shù)據(jù);不分層的話,如果源業(yè)務系統(tǒng)的業(yè)務規(guī)則發(fā)生變化將會影響整個數(shù)據(jù)清洗過程,工作量巨大。通過數(shù)據(jù)分層管理可以簡化數(shù)據(jù)清洗的過程,因為把原來一步的工作分到了多個步驟去完成,相當于把一個復雜的工作拆成了多個簡單的工作,把一個大的黑盒變成了一個白盒,每一層的處理邏輯都相對簡單和容易理解,這樣我們比較容易保證每一個步驟的正確性,當數(shù)據(jù)發(fā)生錯誤的時候,往往我們只需要局部調(diào)整某個步驟即可。

5. 數(shù)倉的元數(shù)據(jù)管理

1)元數(shù)據(jù)(Meta Date),主要記錄數(shù)據(jù)倉庫中模型的定義、各層級間的映射關(guān)系、監(jiān)控數(shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及ETL的任務運行狀態(tài)。一般會通過元數(shù)據(jù)資料庫(Metadata Repository)來統(tǒng)一地存儲和管理元數(shù)據(jù),其主要目的是使數(shù)據(jù)倉庫的設計、部署、操作和管理能達成協(xié)同和一致。

2)元數(shù)據(jù)是數(shù)據(jù)倉庫管理系統(tǒng)的重要組成部分,元數(shù)據(jù)管理是企業(yè)級數(shù)據(jù)倉庫中的關(guān)鍵組件,貫穿數(shù)據(jù)倉庫構(gòu)建的整個過程,直接影響著數(shù)據(jù)倉庫的構(gòu)建、使用和維護。

3)元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務元數(shù)據(jù)。技術(shù)元數(shù)據(jù)為開發(fā)和管理數(shù)據(jù)倉庫的IT 人員使用,它描述了與數(shù)據(jù)倉庫開發(fā)、管理和維護相關(guān)的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉庫模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問權(quán)限等。而業(yè)務元數(shù)據(jù)為管理層和業(yè)務分析人員服務,從業(yè)務角度描述數(shù)據(jù),包括商務術(shù)語、數(shù)據(jù)倉庫中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫助業(yè)務人員更好地理解數(shù)據(jù)倉庫中哪些數(shù)據(jù)是可用的以及如何使用。

添加微信咨詢
弭老師 @青島巖康教育

課程咨詢

微信號:185******43

立即咨詢

“青島巖康教育”是青島巖康教育有限公司在教育寶平臺開設的店鋪,若該店鋪內(nèi)信息涉嫌虛假或違法,請點擊這里向教育寶反饋,我們將及時進行處理。

機構(gòu)評分

環(huán)境:4.0師資:4.0服務:4.0效果:4.0

公示信息

店鋪名稱:青島巖康教育

單位名稱:青島巖康教育有限公司

賬號名稱:qdykjy(185******43)

所屬城市:山東青島

入駐時長:6年

在線客服:在線聊

微信咨詢

返回頂部