什麼是資料目錄?定義、案例和最佳實踐!

IT公社
12 min readDec 29, 2022

--

資料目錄被定義為一個組織中所有資料資產的清單。它幫助資料專業人員為任何分析或業務目的找到最相關的資料。資料目錄使用元資料來建立一個組織中所有資料資產的資訊和可搜尋清單。本文討論了資料目錄的定義,其構建過程,以及資料目錄的十大最佳實踐。

01 什麼是資料目錄?

資料目錄是一個組織中所有資料資產的清單,幫助資料專業人員為任何分析或業務目的找到最相關的資料。它作為一個數據清單,並提供必要的資訊來評估資料對預期用途的適用性。它還幫助分析師和其他資料使用者找到他們為特定目的所需的目標資料。

我經常用圖書館對其進行類比。

當你想知道某本書在圖書館是否可用時,你一般會使用圖書館目錄。除了它的可用性之外,目錄還告訴你這本書的版本和位置。

簡而言之,目錄為你提供了該書的各種細節,以決定你是否需要它。如果你想要,它還告訴你如何找到它。這是今天許多物件儲存、資料庫和資料倉庫的一個基本提供。

現在讓我們把圖書館目錄的力量擴充套件到全國的每一個圖書館。想象一下,你只有一個使用者介面(UI),而你可以找到全國每一個有你要找的書的圖書館。你還可以在這個使用者介面上找到你想要的關於這些書的所有細節。

這正是資料目錄對你所有的組織資料的作用。它為你提供了一個單一的、全面的檢視,對你的所有資料都有可見性,而不是每次只看到一個數據儲存。

Aberdeen Strategy & Research最近進行的研究表明,資料目錄賦予使用者分析能力,這反過來又推動了業務績效。擁有資料目錄的使用者不僅報告了總客戶群的增加,而且還報告了現有客戶滿意度的提高。

02 資料目錄的元資料主題

資料目錄元資料主題

在當今大數據和自助分析時代,資料目錄已成為元資料管理的關鍵。現代的元資料比商業智慧 (BI) 時代的元資料要廣泛得多。

資料目錄使用者推動增強業務執行(來源:Aberdeen Strategy & Research)

根據 Aberdeen 的研究, 當今的公司處理的資料環境年增長率超過 30%,有些遠高於此。資料目錄工具使資料團隊能夠透過在集中式平臺上組織來自多個來源的資料來更有效地定位、理解和利用資料。

資料目錄主要關注資料集(即可用資料的清單),然後將這些資料集與豐富的資訊聯絡起來,讓相關人員瞭解管理資料的資訊。

資料目錄的核心包含以下元資料主題,讓我們詳細看看每個元資料主題:

1、資料集
資料集是組織人員訪問的檔案和表。這些可能駐留在資料湖、倉庫、主資料儲存庫或任何其他共享資料資源中。

2、人員元資料
這描述了使用資料的人員,包括消費者、策展人、管家、主題專家等。

3、搜尋元資料
此元資料支援標記和關鍵字,以幫助人們查詢資料。

4、處理元資料
此類別詳細說明了在資料在其整個生命週期中進行管理時應用的各種轉換和派生。

5、供應商元資料
供應商元資料包括從外部來源獲取的資料,因為它告知與資料相關的來源和訂閱或許可限制。

03 資料目錄流程:示例的關鍵步驟

構建有效的資料目錄有五個步驟,讓我們詳細看看每個步驟:

1、採集資料
構建資料目錄需要採集所有資料。為了確保收集到正確的資料,需要回答兩個問題:要採集哪些元資料以及如何採集它?讓我們一次解決每一個問題。

要採集哪些元資料?

使用資料的形狀、結構和語義填充資料目錄是構建資料目錄的第一步。大多數資料使用者,例如資料科學家、資料工程師、業務分析師和其他人,都根據資料所在的模式或表來引用資料。

考慮以下問題和答案作為示例:

我在哪裡可以找到至少購買了一件商品的客戶?檢查“cust_purchases”表。

發票是如何產生的?發票中包含一個或多個訂單。檢查“發票”和“訂單”表的資料。如果已支付發票,您可以在“付款”表中找到付款。

如今,流式資料和非表格資料(例如 JSON、Parquet 結構)隨處可見,而且它們的數量正在以越來越快的速度增長。即使您今天不使用這些技術,也要尋找支援巢狀資料結構並允許您在未來整合流技術的資料目錄。

最後,有效的資料目錄必須能夠採集資料血緣。資料血緣使使用者能夠檢視資料的來源以及資料的軌跡。這對於提供使用者在使用資料時經常需要的上下文至關重要。

如何採集元資料?

構建資料目錄後,您將需要一個可以代表您輕鬆填充目錄的工具。這可以節省大量時間,因為它避免了手動更新資料生態系統中的每個資料庫、表和欄位。所有主要資料庫和資料儲存(例如,AWS S3)都有可用的 API,允許您提取表示資料形狀和語義的元資料。因此,您應該考慮在構建資料目錄時自動填充元資料的能力。

在某些情況下,您可能無法直接連線到您的資料庫。例如,考慮您不想公開敏感資料,或者您正在使用不公開的託管資料庫。在這種情況下,您應該能夠使用資料儲存中的示例檔案和提取作為直接連線到資料庫的替代方法。

在最壞的情況下,當一切都失敗時,您應該能夠自行快速採集資料而無需自動化。記住不同資料庫的所有客戶端庫的更改頻率,不能保證完美的流程或工具。因此,選擇自己解決問題對於構建強大的資料目錄至關重要。

2、指定聯絡點

構建資料目錄後,確定每個資料資產的重要人員是誰很重要。因此,將所有者等資料使用者分配給您的資料資產非常重要。這使有其他問題或疑問的使用者可以聯絡到合適的人。

資料目錄可能有多種型別的所有者(例如,資料管理員、技術所有者、業務所有者、執行所有者等)。

但是,資料管理員和技術所有者發揮著重要作用。資料管理員使您的使用者能夠知道向誰尋求所有與業務相關的資訊。同時,技術所有者可以回答資料使用者可能遇到的面向技術的問題。

建立資料目錄時,您可以將任務分配給您的所有者。這些任務旨在確保您的資料目錄有據可查並且對其他團隊成員有用。

3、記錄每一次互動

當你開始在資料目錄中記錄你的資料時,你希望捕捉的資訊量一開始可能會顯得很龐大。假設你有兩個資料庫,每個資料庫有幾十個表。每張表又有少量的欄位。在這一刻,你似乎已經看到了幾千個資料資產。

因此,你可以從選擇一個單一的方法論開始,並隨著時間的推移慢慢增加文件。這將確保你在幾個月內達到一定的覆蓋率,也許是90%或更少。

一些常見的方法論包括:

每當你瞭解到這一點,就把它記錄下來
每個人都應該負責更新資料目錄,當他們瞭解到一些還沒有被記錄的新東西時。
當代碼發生變化時,改變文件的內容
當團隊釋出新功能時,相關的團隊成員應該更新資料文件。
為團隊成員留出時間

要求你的每個團隊成員每週花一個小時,或者每天早上花15分鐘在資料目錄上。這將使他們能夠為他們熟悉的資料資產新增新的文件,或者研究他們不知道的資料資產。所有的資料資產在資料目錄中都應該有豐富的文字文件,讓使用者能夠突出關鍵點。

資料目錄還應該為使用者提供能力,將資產歸入共同集。這可以透過對資料的標記來實現。例如,如果你想看到一份關於你所有個人身份資訊(PII)的報告,你可以用 “PII “來標記你所有包含此類資料的表和欄位。

此外,當你的資料目錄允許你的使用者與你的資料進行對話時,你就能釋放出文件的力量。當一個使用者有一個關於資料的問題,並且該資料最終得到了回答 — 那麼這個問題、答案以及導致答案的對話都應該在目錄中被記錄下來。

這允許下一個有類似問題的資料使用者能夠檢視之前的對話,並瞭解答案的背景。這可以節省時間,因為無數次重複相同問題和答案的對話都會被記錄下來。比如說。

A:我如何從我的電腦連線到資料庫?
B:你只需要登入到VPN,就可以直接指向資料庫主機。(有記錄)

在這個例子中,A君可以參考B君的文件化答案,瞭解所需的解決方案。

4、確保資料目錄是最新的

組織所面臨的主要挑戰之一是保持資料目錄的新鮮。開發人員一般會在一段時間內改變資料庫的結構,並經常建立新的管道。

資料科學家和業務分析師一般會建立資料立方體或在分析環境之間移動資料,以建立新的儀表板,也同樣頻繁。引用這些模式,你的資料目錄應該儘可能地自動識別這些變化,並相應地更新自己。

為了確保資料目錄是新鮮的,一些使用者互動來仔細檢查資訊的質量和呆滯性是很重要的。你的資料目錄可以使用治理行動來推動你的使用者在他們認為基礎檔案可能是舊的或過時的時候採取行動。

5、根據需要進行最佳化

每個公司都根據他們的要求和需要來使用資料目錄。所以,你需要為你希望你的組織利用資料目錄的方式設定標準和規範。這裡需要注意的是,你的團隊計劃使用資料目錄的方式將高度影響你捕捉文件的方式。

因此,如果你不知道你的團隊將如何使用資料目錄,那麼你花在記錄資料上的時間很可能會導致不充分的結果。你的團隊可以做的一些常見做法,以最佳化你與資料目錄的互動:

設定標準化的文件格式,並跨資料庫、模式、欄位和資料線使用。

確定關鍵的學習模組,並用一個共同的主題來標記每個學習模組中包含的資產。

強調團隊對資料目錄使用的規範。這將使資料文化在團隊成員中深深紮根。

04 資料目錄的十大最佳實踐

資料目錄可以成為強大的資料管理平臺。然而,如果沒有適當的資料編目方法,資料目錄的力量和功能可能會付之東流。考慮到這一點,以下是資料目錄的十大最佳實踐。

資料目錄的十大最佳實踐

1、把所有的東西都加入到你的清單中

資料無處不在:文字檔案、電子表格,以及更多。

儘管資料可能是分散的,然而在你清點所有東西之前,你甚至無法開始解決資料問題。團隊中的每個人都應該接受培訓,思考他們的資料可能依附的所有地方。然後確保每一個分散的資料都被編入目錄。

2、管理資料流

資料脈絡和出處工具是好的,但它們中的大多數都是在一個已知的領域或一組領域內映射出資料流。

一個好的資料目錄,一個由資料流發現支援的目錄,往往會識別不同資料集之間的流動。這樣的安排可以幫助你發現你的組織內可能不為人知的資料流動。然後,這些流動可以被檢查是否有效。因此,管理資料流是建立一個有效的資料目錄的良好做法。

3、優先處理敏感資料

有效的資料目錄的主要目的之一是幫助識別敏感資料的位置。

在多個地方發現相同的敏感資料的情況下,它可以幫助識別冗餘的資料。因此,管理敏感資料和冗餘資料可以使你最大限度地減少漏洞的表面積,並建立強大的資料保護,防止任何外部攻擊。

4、考慮非結構化資料

非結構化資料(文件、網頁、電子郵件、社交媒體內容、移動資料、影象、音訊和影片)是不符合資料模型的資料,沒有容易識別的結構。

它並不適合主流的關係型資料庫。也就是說,你的資料目錄可以幫助將隱性的資料結構顯性化。這可以透過根據團隊或組織要求重新設計整體資料結構來實現。因此,考慮 “非結構化 “資料對任何資料目錄都是至關重要的。

5、指定可發現的名稱和描述

一個好的名稱和冗長的描述將使你的資料更容易被相關的團隊成員發現。描述可以指出同一物件的其他名稱,並幫助建立一個全面的資料本體。

6、區別對待資料湖表

在關係型資料庫中,資料可能分散在多個表中。然而,資料湖傾向於將大量的資料擠入單個檔案。

在商業智慧領域,一個單一的資料集可能會將措施和維度儲存在一起,而不是分開。即使是在資料庫中以表格形式表示資料的系統也是如此。這可能會使資料的可發現性降低,但資料目錄可以正面解決這個問題。

7、提供透明的評級

在你的資料目錄中,眾包的評級、認可和負面評級可以幫助使用者以更快的方式獲得相關和可靠的資訊。但這需要嚴格的標準。資料不應該得到五星評級,除非它符合一個非常高標準的基準。

同樣地,好的資料也不應該被評為差的。使用者需要對評級有信心,否則他們就不會信任它們。因此,一個組織應該確保標準的統一和精確。

8、讓它成為一個湖,而不是一個沼澤

在你的資料湖中對所有的東西進行編目,使你能夠組織它並使它可用。一旦你的湖被編入目錄,你就可以在其中建立區域,使其成為業務使用者獲取資料的首選之地,而不僅僅是他們傾倒資料的地方。

9、採用資料驗證規則

資料目錄中的英文描述很重要,因為它們有助於記錄和流通所謂的過時的知識給各種業務使用者。這需要技術專家的參與,因為嚴格的資料驗證規則可以幫助驗證資料是否符合目錄的定義。這樣的過程保證了資料質量,並作為對更多定性星級的檢查。

因此,在資料目錄中採用精簡的驗證規則可以在資料使用者中灌輸信任。

10、利用機器學習技術

由於資料量的增加,手工編目在今天是一項不可能完成的任務。

隨著新資料的到來,編目工作根本無法完成,甚至無法跟上步伐。然而,機器學習(ML)是一個很有前途的工具,可以對數量問題進行控制。ML模型可以識別資料型別和關係。這有助於在更多的資料集上建立你的目錄。它也比手動目錄更快地在更多的物件上傳播資料標籤。

因此,如果你的資料目錄沒有在實際資料中利用ML,你可能在資料驅動的旅程中面臨巨大的阻力。總之,資料目錄是你的資料的指南,它以對你、你的團隊和你的業務有意義的方式來組織。

有了一個精簡的方法,你就能在管理、治理和利用你的資料方面發揮其最大的潛力。以上的頂級實踐應該給你在資料目錄的道路上一個良好的開端。

05 關鍵點總結

在一個組織實現資料智慧的過程中,資料目錄發揮著關鍵作用。它是推動收入、最佳化營運效率、促進創新和增長的一個重要因素。既然你已經意識到了資料目錄的意義,我們希望你能部署一個最適合你的業務需求的資料目錄。

文章來源於:Eden(一燈老師)CDO之家

文章連結:https://mp.weixin.qq.com/s/gp1q79OchGLYRmC9TTUbxQ

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

更多精彩內容,按讚我的臉書 IT Value 研討社,獲得24個行業240份企業數位轉型資料喔!等你來看喔 😃

推薦閱讀

2022 年 CIO 現狀:重點轉向 IT 基礎知識

撥開迷霧選型資料中臺,兼談這些供應商的商業模式

一文講清資料治理、資料管理、資料資產管理區別,資料專家必看

企業架構 | 亂七八糟的系統建設是怎樣形成的、該怎麼治

--

--