從資料倉庫到大數據平臺再到資料中臺(附架構圖)

IT公社
Dec 15, 2021

--

文章作者:不胜人生一场醉

現在,資料的新名詞層出不窮:●頂層的有數位城市、智慧地球、智慧城市、城市大腦……●企業層面的有數位轉型、網際網路經濟,數位經濟、數位平臺…… ●平臺層面的有物聯網,雲計算,大數據,5G,人工智慧,機器智慧,深度學習,知識圖譜……●技術層面的有資料倉庫、資料集市、大數據平臺、資料湖、資料中臺、業務中臺、技術中臺等等總之是你方唱罷他登場,各種概念滿天飛…

今天結合“資料中臺”,以作者從事數倉行業多年的實戰經驗來看,數倉 — 大數據平臺 — 資料中臺的區別和本質聯絡,希望能撥雲見霧!

在比拼新經濟的過程中,其實比拼的是流量也就是使用者,但流量不等於使用者,使用者也不完全等同於流量;有了流量和使用者,就等於比拼了對使用者的話語權。各種網際網路概念也是如此,單純從傳統的資料倉庫或是大數據平臺而言,金融或通訊運營商在資料治理、資料管理、企業模型、應用效能、高可靠性上做的絕對不比大廠差的,但這些行業有著政府企業的內斂、同時承擔了太多的安全、隱私、穩定要求,空有使用者和資料,卻很難對外發揮應有的作用,導致在整個資訊科技行業內的話語權不高;

網際網路公司在對資料使用的靈活性、技術的前瞻性、經濟效益的引導性、適度容錯方面做的遠遠超出其他行業,所以行業之間的相互吸收和借鑑也是值得探討的。

新名詞的推出,要被大眾所能接受,在背後是要有話語權支撐的,而目的當然只有利益了,也不排除個別技術人員自己美好的想法和初衷。

回到正文,不管怎麼說,資料中臺這個概念已逐步火了起來。

但資料中臺是什麼?

1、資料中臺是聚合和治理跨域資料,將資料抽象封裝成服務,提供給前臺以業務價值的邏輯概念。

2、資料中臺是一套可持續“讓企業的資料用起來”的機制,一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,透過有形的產品和實施方法論支撐,構建一套持續不斷把資料變成資產並服務於業務的機制。

3、資料中臺連線資料前臺和後臺,突破資料侷限,為企業提供更靈活、高效、低成本的資料分析挖掘服務,避免企業為滿足具體某部門某種資料分析需求而投放大量高成本、重複性的資料開發成本。

4、資料中臺是指透過資料技術,對海量資料進行採集、計算、儲存、加工,同時統一標準和口徑。資料中臺把資料統一之後,會形成標準資料,再進行儲存,形成大數據資產層,進而為客戶提供高效服務。

5、資料中臺,包括平臺、工具、資料、組織、流程、規範等一切與企業資料資產如何用起來所相關的。

以上概念是從網路上搜索並複製出來的,總的來說中臺也好,資料中臺也好,還缺乏一個標準的定義,僅從字面上理解,資料中臺是解決如何用好資料的問題,既然是概念,資料中臺也被賦予了很多擴大的外延,也上升到了資料的採集、計算、儲存、加工和資料治理等方面,這就和傳統的大數據平臺在功能和作用上產生了很大的重疊;而大數據平臺又是從資料倉庫發展起來的。那到底這三者的關係是怎麼樣的呢?

本人從事斷斷續續從事資料倉庫行業約有五六年經驗,完整的負責大數據平臺的整體設計架構和專案實施也有四五年經驗,見證了從傳統資料倉庫轉型到大數據平臺的全歷程。

包括第一個MPP資料集市、第一個Hadoop叢集專案、第一個流式資料處理專案,第一個完整的大數據平臺的融合和構建,混搭式大數據平臺的融合構建,大數據平臺的遷移等等….我所經歷的大數據平臺從規模說大不大說小不小,每天處理資料量將近20T(實時處理月10T左右),總叢集約300臺(其中Hadoop節點約200臺),總容量約8P,實際使用容量約5P;包括了從資料倉庫到大數據平臺數據模型的重構,資料模型的拓展;也包括了大數據平臺提供各種對內應用的規劃,和向外提供應用。

因此對資料倉庫和大數據平臺的優缺點、各自存在的問題、疑惑、發展方向,也算有一定的認知,包括對新生的資料中臺的發展方向,結合自己過往的經驗,談談自己的一些想法。

什麼是資料倉庫?

按照傳統的定義,資料倉庫是一個面向主題的、整合的、相對穩定的、反映歷史變化的資料集合用於支援管理決策。從資料角度,資料倉庫更適合傳統的資料庫,離線採集,資料一般為結構化的,每天處理資料量不易超過TB集,資料倉庫一般在數十T到幾百T以內,資料倉庫一般為滿足內生的應用,滿足內部決策支援分析需求。

當然隨著資料倉庫資料採集的要求越來越高,資料倉庫本身也在不斷的改進,從單機的ETL到叢集的ETL,從傳統的小機+DB,向PC伺服器+分散式DB拓展,資料治理也逐漸增強,從元資料管理到資料質量管理,再到資料運維管控和資料安全管控,但其實資料倉庫給企業留下的最大財富是企業資料模型,這些模型隨著前端業務系統的發展變化,不斷變革,不斷追加,不斷豐富和完善,即使系統不再了,也可以在短期內快速重建起來,這也是大數據平臺能夠快速建設起來的一個重要原因。

什麼是大數據平台?

大數據平台平臺則是指以處理海量資料儲存、計算及流資料實時計算等場景為主的一套基礎設施包括了統一的資料採集中心、資料計算和儲存中心、資料治理中心、運維管控中心、開放共享中心和應用中心

大數據平臺之所以能夠建設起來,不外乎內因和外因,外因是稜鏡門事件帶來的去IOE要求、外部硬體的變革和分散式開源技術的湧現;內因是非結構化、實時資料和海量資料的計算和儲存壓力,企業也寄希望從大數據平臺除了滿足對內需求,也能夠實現一定的對外收益。

大數據平臺的建設出發點是節約投資降低成本,但實際上無論從硬體投資還是從軟體開發上都遠遠超過資料倉庫的建設,大量的硬體和各種開源技術的組合,增加了研發的難度、調測部署的週期、運維的複雜度,人力上的投入已是最初的幾倍;還有很多技術上的困難也非一朝一夕能夠突破,但無論如何大數據平臺還是建設起來了,人員能力也在不斷成長。

資料中台是什麼?

大數據平臺解決了海量資料、實時資料的計算和儲存,也基於原來的企業資料模型實現了重構,但也面臨著一系列的問題,首先是資料的應用問題,無論是資料倉庫還是大數據平臺,裡面包含了介面層資料、儲存層資料、輕度彙總層、重度彙總層、模型層資料、報表層資料等等,各種各樣的表有成千上萬,這些表有的是中間處理過程,有些是一次性的報表,不同表之間的資料一致性和口徑也會不同,而且不同的表不同的欄位對資料安全要求級別也不同,此外還要考慮多租戶的資源安全管理,如何讓內部開發者快速獲取所需的資料資產目錄,如何閱讀相關資料的來龍去脈,如何快速的實現開發,這些在大數據平臺建設初期沒有考慮周全;另外一個問題是對外應用,隨著大數據平臺的應用建設,每一個對外應用都採用單一的資料庫加單一應用建設模式,獨立考慮網路安全、資料安全、共享安全,逐漸又走向了煙囪似的開發道路。

資料倉庫實現了企業資料模型的構建,大數據平臺解決了海量、實時資料的計算和儲存問題,資料中臺要解決什麼呢?

資料如何安全的、快速的、最小許可權的、且能夠溯源的被探測和快速應用的問題

資料中臺不應該被過度的承載平臺的計算、儲存、加工任務,而是應該放在解決企業邏輯模型的搭建和儲存、資料標準的建立、資料目錄的梳理、資料安全的界定、資料資產的開放,知識圖譜的構建,透過一系列工具、組織、流程、規範,實現資料前臺和後臺的連線,突破資料侷限,為企業提供更靈活、高效、低成本的資料分析挖掘服務,避免企業為滿足具體某部門某種資料分析需求而投放大量高成本、重複性的資料開發成本。

厚平臺,大中臺,小前臺,沒有基礎厚實笨重的大數據平臺,是不可能構建資料能力強大、功能強大的資料中臺的。沒有大數據中臺,要迅速搭建小快靈的小前臺也只是理想化的。

我想這才是資料中臺的初衷。

後文是對資料倉庫、大數據平臺、資料中臺的一些總結性的架構材料,也是對自己這些年來的一些彙總和思考吧,看懂了前面的文字,後面的各種架構圖也就無需贅述了。

1、資料倉庫硬體架構

2、資料倉庫功能架構

3、資料倉庫技術架構

4、第一個Hadoop平臺硬體架構

主要是為了解決海量離線資料的計算和儲存,在Hadoop叢集中實現明細資料、彙總資料儲存,在mysql中實現報表資料儲存。
圖片

5、第一個流式處理平臺硬體架構

主要是為了解決海量實時資料的流式採集和計算,在Hadoop叢集中實現明細資料、彙總資料儲存,在mysql中實現報表資料儲存;並透過實時事件處理叢集實現流式事件的匹配。

6、大數據平臺系統規劃

對於大數據平臺各種軟硬體各種元件的規劃

7、大數據平臺系統定位

8、大數據平臺邏輯部署架構

9、大數據平臺功能檢視

10、大數據平臺數據流向

11、大數據平臺對內硬體架構

12、大數據平臺整體硬體架構

13、資料中臺整體架構

文章來源:

公眾號:python與大數據分析

【END】

推薦閱讀

企業大數據到底是什麼,讀完本文你就懂了!

關於資料倉庫建設和資料治理的超全概括

什麼是資料治理,如何進行資料治理

詳細解析資料中台底層邏輯架構

更多精彩內容?按贊我的臉書,期待你與我的互動!

--

--