資料中臺到底是什麼,幾年過去了,也一直眾說紛紜。
筆者認為資料中臺不應該是一個單純的系統或者是一個軟體工具,而應該是一套架構、一套資料流轉模式。
資料中臺需要採集資料作為原材料進行資料加工、資料建模,然後分門別類地儲存,再根據實際的業 務場景,打造各類資料服務(含資料應用平臺)從而實現對業務的賦能加速。
但以上流程的實現,需要有對應的系統與產品作為支撐,那麼基礎的資料中臺到底應該由哪些系統或者產品組成?
這裡我們可以先來看一下幾個企業的資料中臺架構。
可以看出,雖然每個企業由於自身業務的不同,衍生出來的資料中臺體系都有所不同,但大的架構方面是基本統一的,都需要透過一個“資料採集接入”-“加工儲存”-“統一管理”-“服務應用”的階段。
這裡筆者認為《資料中臺產品經理:從資料體系到資料平臺實戰》一書中總結的資料中臺架構是比較具有普適性的, 不論是網際網路行業、還是傳統行業,都可以在該架構上進行改造,設計建設自己的中臺架構。
總體來說資料中臺的功能架構由大數據平臺、資料資產管理平臺與資料服務平臺三大部分組成,其中在資料服務平臺中自助分析平臺與標籤管理系統的應用場景最為廣泛。
1、大數據平臺
大數據平臺是資料中臺的基座,我們也可以把大數據平臺稱為大數據開發平臺,它需要具備與大數據相關的開發能力,提供資料儲存、資料清洗/計算、資料查詢展示及許可權管理等功能。那麼,應該如何建設上述功能與服務?是不是擁有了上述能力就等同於成功打造大數據平臺了呢?
其實我們可以發現各公司的大數據平臺系統架構其實大同小異,各類架構都包含了資料採集元件、資料儲存元件、資料計算引擎、資料許可權與安全元件,以及叢集管理與監控元件等。
除了少數像阿里這樣傾力打造自研“飛天”系統的企業,其他企業在底層元件選用上,還是以 Hadoop 生態構建的技術體系為主,依託各類開源元件進行最佳化改進與二次開發。例如,資料儲存元件可以選擇HBase、Hive等元件,資料計算引擎可以選擇Spark、Flink等分散式計算引擎。
既然大家選用的元件相同或者相似,那為什麼最終各企業大數據平臺的服務能力還是存在差距呢?這有些類似於購買零件組裝臺式電腦,零件不需要選最貴的,而是要根據實際需求來選擇最適合的。
好用的大數據平臺需要擁有為使用者解決問題的能力。因此,資料中臺的大數據平臺建設不是比拼引用了多少新技術、覆蓋了多少技術元件,而是要看它能否解決資料中臺建設中所面臨的複雜資料現狀,能否成為資料中臺打破資料壁壘的技術保障,能否提供簡潔有效的資料處理工具,如提供自助配置式的資料採集與資料清洗工具等,以及能否提供更多的附加價值。
資料中臺的大數據平臺建設,可以避免各事業部技術團隊各自搭建大數據叢集所帶來的資源浪費。統一的、成熟的大數據平臺對企業來說,不能一蹴而就,需要循序漸進、分步實施,在持續迭代中構建企業的大數據平臺生態。
2、資料資產管理平臺
資料資產管理平臺主要解決資料資源的管理, 資料資產遍佈在各個大數據元件中, 有 hive 的表, 有 hbase 的表, 有 druid 的 datasource, 有 kafka 中的流, 各個元件的管控系統很難互相打通, 所以需要一個統一的資料資產管理服務, 來統籌大數據資源的管理。
隨著大數據平臺的建設,構建資料中臺的資料體系成為可能,透過對各業務線資料的歸類整合,我們可以構建出各個資料主題域,完成資料的規範儲存,形成資料資產,進而完成資料資產管理。
在資料中臺體系中,資料資產管理平臺主要由元資料管理與資料模型管理組成,下面讓我們分別瞭解一下。
元資料管理
講述元資料管理,我們需要先弄清楚什麼是元資料。
元資料(MetaData)通常被定義為:關於資料的資料(Metadata),或者描述資料的資料(data about data),對資料及資訊資源的描述性資訊。元資料是所有資料中最重要的資料。
這裡舉一個最通俗的例子。當我們去圖書館借書時,直接面對數以萬計的圖書,自然難以尋找,但是你透過在圖書館查詢系統中輸入這本的書名、作者、出版社等資訊,獲取就能準確的圖書位置。那麼這些書名、作者等資訊,就可以理解為元資料,而圖書的存放位置、借閱歷史記錄等,則是我們系統中的普通資料。
在資料庫中,每一張資料表的表名、建立資訊(建立人、建立時間、所屬部門)、修改資訊、表字段(欄位名、欄位型別、欄位長度等),以及該表與其他表之間的關係等資訊都屬於這張資料表的元資料。
其實,元資料有多種分類方式,筆者更傾向於按照元資料的用途來區分,總共分為三類:業務元資料、技術元資料和管理元資料。
►業務元資料:描述資料的業務含義、業務規則等,包括業務規則、資料字典以及安全標準等多項內容。透過明確業務元資料,讓人們產生統一的資料認知,消除資料歧義,讓不懂資料庫的業務方讀懂資料表的內容。
►技術元資料:描述資料來源資訊、資料流轉資訊及資料結構化資訊,主要服務於資料開發人員,讓開發人員明晰資料表結構與所依賴的上下游任務,主要包括庫表字段(儲存位置、資料庫表、欄位長度和型別)、資料模型、ETL指令碼(排程資訊)與SQL指令碼等。
►管理元資料:描述資料的管理歸屬資訊,包括業務歸屬、系統歸屬、運維歸屬以及資料許可權歸屬等資訊,是資料安全管理的基礎。
所以有人說,元資料記錄了資料從無到有的全過程,就像一本有關資料的“字典”,讓我們可以查詢到每一個欄位的含義與出處,同時它又像是一張“地圖”,讓我們可以追溯資料產生的路徑。
透過對資料體系的建設,資料中臺的元資料匯聚了企業各業務線與各系統的資料資訊,讓資料中臺具備了提供全域資料資產檢視的能力,實現了統一資料資產查詢與獲取入口的目標。
元資料管理包括對元資料增刪與編輯管理、版本管理、元資料統計分析與元模型管理。透過上述功能模組,有計劃地進行資料體系的落地實施,實現資料中臺元資料的結構化與模型化,這樣既可以避免元資料出現雜亂與冗餘的現象,也便於使用者查詢與定位資料。
資料模型管理
介紹元資料時,我們提到技術元資料中包括資料模型,這裡的資料模型就是指使用元資料進行資料建模的工作產物。
根據底層資料的使用情況,如資料表的關聯資訊、SQL指令碼資訊(資料聚合與查詢資訊等),來獲取元資料,可以更好地完成對業務的抽象,提高建模效率。
資料模型是資料整合的有效手段,它完成了各資料來源之間的對映關係設計,為資料主題建設提供了“實施圖紙”。
同時,在資料建模過程中,透過明確資料標準,可以確保資料的一致性,還可以消化冗餘資料。
至於資料模型管理,其是指在資料建模過程中,透過既定的資料模型管理制度,實現對資料模型增、刪、改、查的管理,同時遵守資料標準化與資料統一化的要求,確保資料質量。
3、資料服務平臺
自助分析平臺
自助分析平臺,也就是商業智慧平臺(BI平臺)。BI平臺目前已經是很多企業的標配,目前BI商用市場的行業競爭日趨激烈,進場者可以分為如下3類:
►國內BI廠商,典型代表為連續多年國內市場佔有率第一的帆軟
►國外BI廠商,如Tableau
►網際網路大廠內部孵化
BI 平臺是資料中臺服務能力的主要輸出方,要想讓資料中臺發揮出應有價值,那麼BI平臺的建設必不可少,所以需要將BI 平臺建設劃分在資料中臺體系下。綜合來看,BI平臺應該具備如下能力。
(1)資料接入
除了資料中臺的自有資料來源,BI平臺還需要支援外部資料來源的接入。其接入方式,主要有如下3種。
►檔案型:支援Excel等檔案資料的上傳。
►資料連線型:支援Mysql、Oracle等資料庫,以及Hadoop、Spark等大數據平臺(資料中臺的大數據平臺也在此列)。
►API讀取:支援透過API獲取第三方系統資料。
(2)資料處理
BI 平臺需要能為使用者提供資料建模工具,幫助使用者建立目標資料(資料集),其提供的功能包括拖拽表字段、自動識別維度/指標、自定義檢視語句、預覽資料、設定虛擬欄位、函式計算、設定引數等基本操作,以及多源異構的 JOIN/UNION等資料處理功能。
(3)資料分析與視覺化
在資料處理的基礎上,BI 平臺還需要為使用者提供豐富的圖表製作和聯機分析處理(OLAP)操作,讓使用者在前端頁面完成資料分析與資料視覺化等工作。
其操作流程如下:使用者選擇處理後的資料集,對維度與指標進行篩選過濾,然後透過上卷下鑽、圖表聯動、報表跳轉等操作,完成業務需求的分析,同時BI平臺會為使用者提供視覺化圖形元件,使其最終完成視覺化內容的設計。
(4)內容分發與基礎服務
BI平臺需要具備分發視覺化內容,並進行檢視許可權與資料許可權控制的能力。主要的分發方式包括BI平臺、移動BI(App)、資料大屏、郵件、連結訪問,以及第三方嵌入等方式。
同時BI平臺還需要具備基礎的運營管理、角色管理、幫助中心與訊息推送等功能。
只有滿足以上功能、具備了多維分析、資料視覺化與資料大屏等服務能力的BI平臺,才可以最大限度的發揮在資料中臺體系中的價值,有效地幫助分析師與運營團隊提升工作效率。
標籤管理系統
除了BI平臺,標籤管理系統也是資料服務的重要應用方向之一。目前,業務部門面臨著大量的精準營銷場景,這些千人千面的推薦、推送需要基於一個完善且準確的使用者畫像來實現,而使用者畫像的構成又需要由大量、全面的使用者標籤來支撐。
因此,標籤資料作為個性化業務應用的基礎資料,其可信度與有效性就成了衡量使用者畫像成熟度的關鍵指標。
我們可以把標籤管理系統看作使用者畫像系統的基座,基於資料中臺打造的資料體系,可以順其自然地打通標籤治理中的資料壁壘,構建企業級的、統一認可的使用者標籤體系,並由此打造一個企業級的使用者畫像系統。
資料中臺的標籤管理系統,主要具備以下功能。
(1)使用者唯一性識別
很多企業內各業務線都有自己的獨立使用者識別體系,如在 58 集團內就有 58裝置指紋、安居客唯一使用者、招聘自然人、金融自然人等多種使用者識別方式,但是這些識別方式大部分是服務於單一業務線的,各業務線內的標籤也是面向本業務的獨立使用者標識進行研發的。
資料中臺的標籤管理體系,可以提供統一的使用者識別服務,將各業務線的獨立使用者標識進行關聯和統一,從而打通面向整個企業的獨立使用者識別和標籤互動轉換方案。
(2)標籤體系管理
標籤體系管理的主要工作是制訂標籤資料和資訊互動方案,打通使用者畫像研發和服務中的資訊及資料壁壘,提供標籤接入、視覺化標籤資訊展現、視覺化標籤許可權控制、視覺化使用者標籤分析、視覺化人群定向提取與視覺化相似人群擴充套件(Lookalike)等功能。
(3)標籤資料服務
標籤管理系統,需要提供使用者畫像研發和應用過程中涉及的標籤提取與查詢等服務,以標準化服務介面(API)的方式將相關解決方案提供給各業務方,支援業務方基於資料中臺的能力,打造業務線的個性化服務。
除了商業智慧BI和標籤管理外,各企業還需根據自身所處行業的特性去進行資料應用價值的最大化挖掘。
文章主體內容來源:《資料中臺產品經理:從資料體系到資料平臺實戰》
歡迎關注我的臉書「IT Values研討社」有更多豐富IT相關內容噢