企業(yè)如何找到數(shù)據(jù)、了解數(shù)據(jù)以及使用數(shù)據(jù)?
這離不開數(shù)據(jù)目錄的能力。數(shù)據(jù)目錄有著類似于“字典”的作用,能夠幫助數(shù)據(jù)生產(chǎn)者和使用者快速定位數(shù)據(jù)、解釋數(shù)據(jù)、找到數(shù)據(jù),并從中提取業(yè)務(wù)價(jià)值。
【資料圖】
對(duì)以研發(fā)人員為代表的數(shù)據(jù)生產(chǎn)者來說,他們利用數(shù)據(jù)目錄來組織、梳理各類元數(shù)據(jù)。例如,數(shù)據(jù)生產(chǎn)者會(huì)將元數(shù)據(jù)以目錄等形式編排到一起,方便維護(hù),并通過打業(yè)務(wù)標(biāo)簽、添加應(yīng)用場(chǎng)景描述、字段解釋等豐富業(yè)務(wù)相關(guān)屬性。
對(duì)于數(shù)據(jù)分析師、產(chǎn)品、運(yùn)營(yíng)等數(shù)據(jù)使用者來說,他們通過數(shù)據(jù)目錄來查找和理解數(shù)據(jù),例如通過關(guān)鍵字檢索,或目錄瀏覽,來查找業(yè)務(wù)場(chǎng)景數(shù)據(jù),并瀏覽詳情介紹、字段描述、產(chǎn)出關(guān)系等,進(jìn)一步理解并利用數(shù)據(jù)決策。
在字節(jié)跳動(dòng),也有這么一套被內(nèi)部廣泛使用的數(shù)據(jù)目錄系統(tǒng)。目前,該系統(tǒng)已通過火山引擎DataLeap數(shù)據(jù)地圖平臺(tái)對(duì)外輸出。外部用戶也可以在DataLeap數(shù)據(jù)地圖平臺(tái),收集、組織、訪問和補(bǔ)充元數(shù)據(jù)信息,為自身數(shù)據(jù)建設(shè)和治理提供支持。
火山引擎DataLeap數(shù)據(jù)地圖平臺(tái)-數(shù)據(jù)目錄
要構(gòu)建一套擴(kuò)展性強(qiáng)、易維護(hù)且易用的數(shù)據(jù)目錄系統(tǒng)并非易事。在大數(shù)據(jù)領(lǐng)域,各類計(jì)算和存儲(chǔ)系統(tǒng)百花齊放,概念和原理又千差萬別,對(duì)于元數(shù)據(jù)的采集、組織、理解、信任等,都帶來了很大挑戰(zhàn)。
在調(diào)研各個(gè)開源軟件及技術(shù)體系基礎(chǔ)上,火山引擎DataLeap選擇基于Apache Atlas改造,而這套數(shù)據(jù)目錄系統(tǒng)主要依賴五大關(guān)鍵技術(shù):
第一,數(shù)據(jù)模型統(tǒng)一。一方面,DataLeap通過充分復(fù)用各種元數(shù)據(jù)類型間的相似能力,獲得數(shù)據(jù)模型定制靈活性;另一方面,DataLeap將數(shù)據(jù)源關(guān)聯(lián)的能力進(jìn)行收斂到一起,以降低后續(xù)的維護(hù)成本。
第二,數(shù)據(jù)接入標(biāo)準(zhǔn)化。當(dāng)用戶接入新的元數(shù)據(jù)時(shí),只需要重新編寫Source和Diff Operator,而其他組件可直接復(fù)用,以標(biāo)準(zhǔn)化的connector節(jié)省接入和運(yùn)維成本。
第三,搜索優(yōu)化。在數(shù)據(jù)目錄中,搜索是用戶最廣泛使用的功能,也是用戶找數(shù)主要的手段。搜索優(yōu)化可分為離線部分和在線部分。離線部分負(fù)責(zé)匯集各類與搜索相關(guān)的數(shù)據(jù),完成數(shù)據(jù)清洗或者模型訓(xùn)練,再根據(jù)不同的用途,寫入不同的存儲(chǔ),供給在線搜索模塊使用。在線部分則分為搜索理解、召回、精排三個(gè)主要階段,步驟和概念與通用搜索引擎對(duì)齊。
第四,血緣能力。完備的血緣能力,既可以幫助數(shù)據(jù)生產(chǎn)者梳理、組織元數(shù)據(jù),也可以幫助數(shù)據(jù)消費(fèi)者找數(shù)、理解數(shù)據(jù)上下文。火山引擎DataLeap在設(shè)計(jì)上充分考慮血緣鏈路的多樣性和復(fù)雜性,并在血緣質(zhì)量上,通過定義有效的血緣準(zhǔn)確率、覆蓋率和時(shí)效性,確保血緣信息準(zhǔn)確、全面和實(shí)時(shí)性。
第五,存儲(chǔ)層優(yōu)化。當(dāng)業(yè)務(wù)中有越來越多的元數(shù)據(jù)接入數(shù)據(jù)目錄,圖存儲(chǔ)中的點(diǎn)和邊將分別到達(dá)百萬和千萬量級(jí),造成讀寫性能出現(xiàn)問題。在讀優(yōu)化和寫優(yōu)化層面,火山引擎DataLeap分別通過開啟MutilPreFetch 能力、去除Guid全局唯一性檢查,最終實(shí)現(xiàn)小表性能小于100ms、中表性能2~5s、大表性能0.5~1min。
據(jù)介紹,火山引擎DataLeap能幫助企業(yè)快速完成數(shù)據(jù)集成、開發(fā)、運(yùn)維、治理、資產(chǎn)、安全等全套數(shù)據(jù)中臺(tái)建設(shè),其中數(shù)據(jù)目錄能力主要涵蓋在數(shù)據(jù)地圖平臺(tái),該平臺(tái)通過提供數(shù)據(jù)檢索、元數(shù)據(jù)詳情查看、數(shù)據(jù)理解等功能,解決找數(shù)難、理解數(shù)據(jù)難的痛點(diǎn),同時(shí)支持?jǐn)?shù)據(jù)專題、血緣圖譜、數(shù)據(jù)發(fā)現(xiàn)、庫表管理等特色功能。
目前,火山引擎DataLeap的數(shù)據(jù)地圖平臺(tái)已接入全鏈路核心元數(shù)據(jù),包括LAS、MySQL、ByteHouse CE、ByteHouse CDW、TOS、LasFS、EMR hive等,提供可視化的血緣關(guān)系展示能力,幫助用戶全面的探查了解數(shù)據(jù),支持表、字段級(jí)別血緣可視化查詢,以及按層級(jí)、范圍篩選展示,為用戶提供靈活、易用的數(shù)據(jù)服務(wù)。(作者:田軒棋)
關(guān)鍵詞:
最新資訊
關(guān)于我們 廣告服務(wù) 手機(jī)版 投訴文章:435 226 40@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛好者日?qǐng)?bào)網(wǎng) 版權(quán)所有 聯(lián)系網(wǎng)站:435 226 40@qq.com