企業(yè)如何找到數(shù)據(jù)、了解數(shù)據(jù)以及使用數(shù)據(jù)?
這離不開數(shù)據(jù)目錄的能力。數(shù)據(jù)目錄有著類似于“字典”的作用,能夠幫助數(shù)據(jù)生產(chǎn)者和使用者快速定位數(shù)據(jù)、解釋數(shù)據(jù)、找到數(shù)據(jù),并從中提取業(yè)務價值。
【資料圖】
對以研發(fā)人員為代表的數(shù)據(jù)生產(chǎn)者來說,他們利用數(shù)據(jù)目錄來組織、梳理各類元數(shù)據(jù)。例如,數(shù)據(jù)生產(chǎn)者會將元數(shù)據(jù)以目錄等形式編排到一起,方便維護,并通過打業(yè)務標簽、添加應用場景描述、字段解釋等豐富業(yè)務相關屬性。
對于數(shù)據(jù)分析師、產(chǎn)品、運營等數(shù)據(jù)使用者來說,他們通過數(shù)據(jù)目錄來查找和理解數(shù)據(jù),例如通過關鍵字檢索,或目錄瀏覽,來查找業(yè)務場景數(shù)據(jù),并瀏覽詳情介紹、字段描述、產(chǎn)出關系等,進一步理解并利用數(shù)據(jù)決策。
在字節(jié)跳動,也有這么一套被內(nèi)部廣泛使用的數(shù)據(jù)目錄系統(tǒng)。目前,該系統(tǒng)已通過火山引擎DataLeap數(shù)據(jù)地圖平臺對外輸出。外部用戶也可以在DataLeap數(shù)據(jù)地圖平臺,收集、組織、訪問和補充元數(shù)據(jù)信息,為自身數(shù)據(jù)建設和治理提供支持。
火山引擎DataLeap數(shù)據(jù)地圖平臺-數(shù)據(jù)目錄
要構建一套擴展性強、易維護且易用的數(shù)據(jù)目錄系統(tǒng)并非易事。在大數(shù)據(jù)領域,各類計算和存儲系統(tǒng)百花齊放,概念和原理又千差萬別,對于元數(shù)據(jù)的采集、組織、理解、信任等,都帶來了很大挑戰(zhàn)。
在調(diào)研各個開源軟件及技術體系基礎上,火山引擎DataLeap選擇基于Apache Atlas改造,而這套數(shù)據(jù)目錄系統(tǒng)主要依賴五大關鍵技術:
第一,數(shù)據(jù)模型統(tǒng)一。一方面,DataLeap通過充分復用各種元數(shù)據(jù)類型間的相似能力,獲得數(shù)據(jù)模型定制靈活性;另一方面,DataLeap將數(shù)據(jù)源關聯(lián)的能力進行收斂到一起,以降低后續(xù)的維護成本。
第二,數(shù)據(jù)接入標準化。當用戶接入新的元數(shù)據(jù)時,只需要重新編寫Source和Diff Operator,而其他組件可直接復用,以標準化的connector節(jié)省接入和運維成本。
第三,搜索優(yōu)化。在數(shù)據(jù)目錄中,搜索是用戶最廣泛使用的功能,也是用戶找數(shù)主要的手段。搜索優(yōu)化可分為離線部分和在線部分。離線部分負責匯集各類與搜索相關的數(shù)據(jù),完成數(shù)據(jù)清洗或者模型訓練,再根據(jù)不同的用途,寫入不同的存儲,供給在線搜索模塊使用。在線部分則分為搜索理解、召回、精排三個主要階段,步驟和概念與通用搜索引擎對齊。
第四,血緣能力。完備的血緣能力,既可以幫助數(shù)據(jù)生產(chǎn)者梳理、組織元數(shù)據(jù),也可以幫助數(shù)據(jù)消費者找數(shù)、理解數(shù)據(jù)上下文。火山引擎DataLeap在設計上充分考慮血緣鏈路的多樣性和復雜性,并在血緣質量上,通過定義有效的血緣準確率、覆蓋率和時效性,確保血緣信息準確、全面和實時性。
第五,存儲層優(yōu)化。當業(yè)務中有越來越多的元數(shù)據(jù)接入數(shù)據(jù)目錄,圖存儲中的點和邊將分別到達百萬和千萬量級,造成讀寫性能出現(xiàn)問題。在讀優(yōu)化和寫優(yōu)化層面,火山引擎DataLeap分別通過開啟MutilPreFetch 能力、去除Guid全局唯一性檢查,最終實現(xiàn)小表性能小于100ms、中表性能2~5s、大表性能0.5~1min。
據(jù)介紹,火山引擎DataLeap能幫助企業(yè)快速完成數(shù)據(jù)集成、開發(fā)、運維、治理、資產(chǎn)、安全等全套數(shù)據(jù)中臺建設,其中數(shù)據(jù)目錄能力主要涵蓋在數(shù)據(jù)地圖平臺,該平臺通過提供數(shù)據(jù)檢索、元數(shù)據(jù)詳情查看、數(shù)據(jù)理解等功能,解決找數(shù)難、理解數(shù)據(jù)難的痛點,同時支持數(shù)據(jù)專題、血緣圖譜、數(shù)據(jù)發(fā)現(xiàn)、庫表管理等特色功能。
目前,火山引擎DataLeap的數(shù)據(jù)地圖平臺已接入全鏈路核心元數(shù)據(jù),包括LAS、MySQL、ByteHouse CE、ByteHouse CDW、TOS、LasFS、EMR hive等,提供可視化的血緣關系展示能力,幫助用戶全面的探查了解數(shù)據(jù),支持表、字段級別血緣可視化查詢,以及按層級、范圍篩選展示,為用戶提供靈活、易用的數(shù)據(jù)服務。(作者:田軒棋)
關鍵詞:
關于我們 廣告服務 手機版 投訴文章:435 226 40@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛好者日報網(wǎng) 版權所有 聯(lián)系網(wǎng)站:435 226 40@qq.com