近期,火山引擎DataLeap上線“動態(tài)探查”能力,為用戶提供全局數(shù)據(jù)視角、完善的抽樣策略,提高數(shù)據(jù)探查的靈活度以及響應速率。
(資料圖)
傳統(tǒng)的數(shù)據(jù)探查是基于庫表的全量探查,由后端引擎執(zhí)行,通過自動化檢查數(shù)據(jù)成分、關系、格式等,以報告形式展示探查后列的統(tǒng)計分布結果,避免數(shù)據(jù)質(zhì)量導致項目開發(fā)、上線出現(xiàn)問題,主要應用于元數(shù)據(jù)管理、數(shù)據(jù)研發(fā)、數(shù)倉開發(fā)以及數(shù)據(jù)治理等環(huán)節(jié),滿足使用者對數(shù)據(jù)質(zhì)量初探的需求。
但在數(shù)據(jù)量級大、用戶需要探查數(shù)據(jù)明細或需要數(shù)據(jù)預處理操作時,由于傳統(tǒng)的數(shù)據(jù)探查要對全量表進行檢測,導致無法實時產(chǎn)出報告、等待時間變長,靈活度低,且無法跟蹤數(shù)據(jù)明細。
針對上述痛點,火山引擎DataLeap在傳統(tǒng)數(shù)據(jù)探查基礎能力上,進一步增強了動態(tài)探查能力。其特點在于:
● 基于大數(shù)據(jù)預覽探查,支持對數(shù)據(jù)進行函數(shù)級別預處理。
● 數(shù)據(jù)探查結果秒級更新、實時響應。
● 與數(shù)據(jù)監(jiān)控聯(lián)動,有效打通數(shù)據(jù)探查到質(zhì)量分析閉環(huán)。
據(jù)介紹,DataLeap動態(tài)探查的對象是抽樣數(shù)據(jù),支持連續(xù)抽樣(按照默認順序連續(xù)抽樣前x條數(shù)據(jù))、過濾抽樣(使用where過濾語句過濾)、隨機抽樣(隨機抽樣x條數(shù)據(jù))3種模式,用戶可對數(shù)據(jù)進行預處理,實時、動態(tài)獲得統(tǒng)計分布結果,具備靈活度高、實效性強的特點。
火山引擎DataLeap動態(tài)探查使用流程
除此之外,DataLeap動態(tài)探查具備對探查結果基礎分析能力,包含列刪除、過濾、排序等。用戶對探查結果的每一次操作都會被記作一次操作,多次操作串聯(lián)成操作棧,DataLeap支持用戶自由修改或刪減操作棧里的步驟,并實時查看最新結果。
火山引擎DataLeap動態(tài)探查操作棧
火山引擎DataLeap數(shù)據(jù)探查報告
目前,DataLeap動態(tài)探查可以應用在以下三個場景中:
● 場景1:用于分析型探查場景,用戶可利用hive基本函數(shù),如get_json_object,將列進行數(shù)據(jù)提取。
● 場景2:與探查報告打通,用戶點擊探查報告中的統(tǒng)計值,即可跳轉(zhuǎn)到數(shù)據(jù)表格,并應用具體行過濾函數(shù)。
● 場景3:用于數(shù)據(jù)過濾后的探查場景,用戶通過過濾和分組條件進行寫條件探查,例如校驗status=0時current_price為0的占比。
DataLeap是火山引擎數(shù)智平臺旗下產(chǎn)品,提供數(shù)據(jù)集成、開發(fā)、運維、治理、資產(chǎn)、安全等能力,幫助用戶提升數(shù)據(jù)研發(fā)效率、降低管理成本,加速推動企業(yè)的數(shù)字化轉(zhuǎn)型,目前已經(jīng)應用于泛互聯(lián)網(wǎng)、制造、新零售、汽車等領域。(作者:姚元宇)
關鍵詞:
關于我們 廣告服務 手機版 投訴文章:435 226 40@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛好者日報網(wǎng) 版權所有 聯(lián)系網(wǎng)站:435 226 40@qq.com