8

数据治理助力区块链迈向大数据时代 |《超话区块链》82期回顾

 2 years ago
source link: https://segmentfault.com/a/1190000040354127
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

区块链数据治理的背景及存在的问题

数据治理通过具体机制来保证数据的完整性和安全性,包括质量、效率和安全方面的管理。数据治理不是静止的状态,而是可持续的过程。

随着区块链逐渐渗透入人们的日常生活,其在数字政务、金融服务、社会治理、公益环保、司法仲裁等领域都有应用。

这些领域的数据上链后,需要进行分析处理,挖掘价值。链上和链下的数据经过采集之后进入数据湖,这时数据湖可以为上层应用提供数据支撑,数据常常应用于业务分析、大屏展示、监管审计、业务报表等,这些功能又为区块链应用提供了能力支撑。通过这样的循环,数据在数据湖周围“流动”起来。

在很多传统互联网企业中,数据治理问题主要出现在数据的生产采集、加工存储和数据应用、数据销毁的全流程中,每个环节都有可能出现各类风险。

  • 当下区块链技术与大数据治理的融合进程中,也面临了新的挑战。
  • 节点存储成本高,随着节点上数据量的不断增加,节点存储成本成倍增长;
  • 数据同步时间长,当节点数据量非常大时,新节点同步数据周期长,无法快速加入网络;
  • 节点查询性能低,交易执行效率随着节点上业务和数据量的增加逐步降低;
  • 无法进行大数据处理,由于区块链特定的链式存储结构,导致链上无法进行大数据处理和复杂查询;
  • 数据导出开发成本高,业务分析需要按照智能合约对数据进行解析,开发成本周期较长;
  • 无法复用可扩展性差,当业务发生变动,链上数据的解析和导出也需重新开发。

随着区块链业务的不断发展,企业运营的精细化程度不断提高,区块链数据对企业的影响越来越大。企业在利用这些资产创造价值时,对数据的质量、效率和安全的要求也在不断提高。

数据治理组件技术架构及方案优势

数据治理组件技术架构围绕区块链底层展开,分为运维组件、开发及业务组件两层,共同实现对区块链数据的治理。

运维层包含数据仓库(Data-Stash),负责对数据进行扩容、备份、裁剪以及同步。开发及业务组件主要包含数据导出(Data-Export)和业务对账(Data-Reconcile)。其中数据导出组件主要解决区块链大数据复杂查询、分析和处理问题;业务对账组件主要提供基于区块链数据的对账解决方案。

image.png

数据治理组件解决方案具有如下优势:

第一,性能高效可实时同步去查询,它提供全量数据备份的同时支持节点数据的高效同步,数据导出提供高效实时查询能力并支持多线程、多活处理,提升处理性能;

第二,支持不同存储介质可扩展,数据存储支持MySQL、ES等不同的存储介质并在底层提供可扩展的协议接口确保可扩展性;

第三,数据服务安全稳定可信可证明,基于多个节点备份数据,确保数据的完整性;

第四,分布式存储支持大数据分析查询,数据治理组件基于智能合约将链上数据导出到便于大数据分析和查询的存储介质中,并提供通用化查询能力,支持分库分表和主从备份;

第五,低代码开发几乎零成本,组件主要面向开发者,我们尽可能减少代码的开发,只要经过简单配置就可以完成组件的基本应用;

第六,通用化设计确保方案可复用,组件在设计或者是开发的时候会尽可能兼顾通用性,无需针对不同的场景做重复开发。同时,我们也会提供一些个性化配置。

image.png

数据治理组件应用场景及组件介绍

数据治理组件优势发挥与场景运用息息相关。

在运维管理场景中针对前端数据服务,能够实现全量备份、数据裁剪、快速同步、冷数据查询;在业务功能场景中主要涉及数据分析、大盘展示、监管审计、业务报表;在行业应用场景中主要包括数字政务、金融服务、社会治理、司法仲裁等。

image.png

以下是关于数据治理组件的具体介绍。

Data-Stash 数据仓库组件

Data-Stash是基于FISCO BCOS的数据仓库组件,主要提供区块链数据的扩容、备份和裁剪的能力。它通过解析节点的Binlog日志生成节点的备份,从而使节点能够实现冷热数据分离,提供裁剪和数据快速同步的能力。

Data-Stash通过对节点Binlog的分析,实现了节点账本的全量备份、多维度账本校验、备份数据可信存储以及断点续传等能力。

Data-Stash主要具备以下功能特性:

(1)冷热数据分离

随着时间的推移,节点会积累越来越多的账本数据。如果节点体积不受控制地增长,最终会使节点服务器侵蚀殆尽,造成不良影响。

对此,可以通过数据仓库服务来实现数据的分离。启动Data-Stash服务,并将节点Binlog导入到数据库中,实现数据备份。开发者可以对链上数据进行划分,删除不常用数据,保留近期数据。为了让节点运行不受影响,用户需要保证节点启用。

(2)实现节点高效迁移

在区块链业务运行时,常会出现节点扩容或升级需求。例如,服务器因为某些故障需要下线或者更换磁盘,我们可以通过Data-Stash对节点的数据进行快速同步。

(3)监管、审计、追溯

对监管方而言,需要保证账本数据的完整性与可查询性,由于区块链自身的账本数据库可能无法满足需求,此时我们可以通过数据仓库组件进行完整的备份;我们可以采用关系型数据库以便更好地查询数据;为了更好地满足监管的需求,我们采用多维度校验机制来防止节点的恶意篡改。

Data-Export数据导出组件

Data-Export也是基于FISCO BCOS平台的数据导出工具,使用者几乎不需要编码,只要简单配置,就可以把结构化的数据导出到关系型数据库或ES等数据库,以便后续业务分析和处理。

同时它支持多活部署、数据分库分表、导出数据可视化、应用监管等功能,能够适应各类复杂业务场景。

Data-Export主要具备以下功能特性:

(1)支持智能合约数据的导出

合约相关的方法和事件数据能够通过Data-Export解析并导出,导出后的数据较为直观,能够被用来作展示和分析。

(2)数据复杂查询和分析

在数据存储方面,Data-Export目前支持MySQL、ES存储,并提供扩展接口,同时,支持多种导出策略。数据在导出到链下后,可进行复杂查询和进一步分析。

(3)支持读写分离的技术架构

利用Data-Export可以将上链写操作与读操作进行分离,通过将数据导出链下来提供读能力,从而减轻链节点在读操作上的压力,实现读写分离的技术架构。

(4)提供监控等可视化能力

可将链上数据导出到数据库表中,通过可视化能力提供数据展示,呈现数据的核心流程和价值,实现对区块链数据的监控等能力。

Data-Reconcile数据对账组件

传统企业之间的对账,主要依赖于对账双方的中心化账本。基于区块链本身所具有传递性、不可篡改以及驱动化等特性,我们可以找到一个可信的客观依据。

Data-Reconcile是一款基于区块链的数据对账组件,提供基于区块链智能合约账本的通用化数据对账解决方案。

Data-Reconcile主要具备以下功能特性:

(1)支持动态可拓展定制化的开发

一方面,Data-Reconcile数据对账组件会提供一些通用化模式;另一方面,在不同业务场景也支持进一步的定制化开发。

(2)灵活可配置的数据对账规则

对账规则是可以自定义进行配置,提供对账任务的调度管理。

(3)对账流程的可插拔、可扩展

提供扩展接口,功能和流程可插拔。

对于Data-Stash 数据仓库、Data-Export数据导出、Data-Reconcile数据对账这三个主要组件的具体操作演示,欢迎点击观看操作演示。

体验WeBankBlockchain-Data:
WeBankBlockchain-Data-Stash 数据仓库组件
https://github.com/WeBankBlockchain/Data-Stash
WeBankBlockchain-Data-Export 数据导出组件
https://github.com/WeBankBlockchain/Data-Export
WeBankBlockchain-Data-Reconcile 数据对账组件

《超话区块链》
《超话区块链》是由FISCO BCOS 开源社区推出的直播活动,每周四晚8点,社区邀请一位技术极客或应用先锋,做客直播间分享开发实践或应用心得。作为社区固定栏目,《超话区块链》已举办近百场,从技术研讨到产业应用均有触达,欢迎大家自荐或推荐朋友到直播间分享。加小助手V入群观看直播。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK