5

数据报告秒级更新、实时响应,火山引擎DataLeap上线动态探查能力-品玩

 1 year ago
source link: https://www.pingwest.com/a/281853
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

数据报告秒级更新、实时响应,火山引擎DataLeap上线动态探查能力-品玩业界动态

数据报告秒级更新、实时响应,火山引擎DataLeap上线动态探查能力

article-thumb-lg

近期,火山引擎DataLeap上线“动态探查”能力,为用户提供全局数据视角、完善的抽样策略,提高数据探查的灵活度以及响应速率。

传统的数据探查是基于库表的全量探查,由后端引擎执行,通过自动化检查数据成分、关系、格式等,以报告形式展示探查后列的统计分布结果,避免数据质量导致项目开发、上线出现问题,主要应用于元数据管理、数据研发、数仓开发以及数据治理等环节,满足使用者对数据质量初探的需求。

但在数据量级大、用户需要探查数据明细或需要数据预处理操作时,由于传统的数据探查要对全量表进行检测,导致无法实时产出报告、等待时间变长,灵活度低,且无法跟踪数据明细。

针对上述痛点,火山引擎DataLeap在传统数据探查基础能力上,进一步增强了动态探查能力。其特点在于:

● 基于大数据预览探查,支持对数据进行函数级别预处理。

● 数据探查结果秒级更新、实时响应。

● 与数据监控联动,有效打通数据探查到质量分析闭环。

据介绍,DataLeap动态探查的对象是抽样数据,支持连续抽样(按照默认顺序连续抽样前x条数据)、过滤抽样(使用where过滤语句过滤)、随机抽样(随机抽样x条数据)3种模式,用户可对数据进行预处理,实时、动态获得统计分布结果,具备灵活度高、实效性强的特点。

article-body

火山引擎DataLeap动态探查使用流程

除此之外,DataLeap动态探查具备对探查结果基础分析能力,包含列删除、过滤、排序等。用户对探查结果的每一次操作都会被记作一次操作,多次操作串联成操作栈,DataLeap支持用户自由修改或删减操作栈里的步骤,并实时查看最新结果。

article-body

火山引擎DataLeap动态探查操作栈

article-body

火山引擎DataLeap数据探查报告

目前,DataLeap动态探查可以应用在以下三个场景中:

● 场景1:用于分析型探查场景,用户可利用hive基本函数,如get_json_object,将列进行数据提取。

● 场景2:与探查报告打通,用户点击探查报告中的统计值,即可跳转到数据表格,并应用具体行过滤函数。

● 场景3:用于数据过滤后的探查场景,用户通过过滤和分组条件进行写条件探查,例如校验status=0时current_price为0的占比。

DataLeap是火山引擎数智平台旗下产品,提供数据集成、开发、运维、治理、资产、安全等能力,帮助用户提升数据研发效率、降低管理成本,加速推动企业的数字化转型,目前已经应用于泛互联网、制造、新零售、汽车等领域。(作者:郝海佳)


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK