4

神策数据王灼洲:如何进行有效的数据治理,提升数据价值?

 2 years ago
source link: https://www.sensorsdata.cn/blog/20210201/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

神策数据王灼洲:如何进行有效的数据治理,提升数据价值?

神策小秘书 标签: 神策数据, 数据采集, 数据治理 2021年02月01日

在数据应用过程中,数据采集和数据治理是两大核心抓手。本文继《方法论 + 实践,全面解析数据采集方案》之后,作者王灼洲通过两大挑战、三大原则详细阐述了对于企业数据治理的思考。主要内容如下:

· 数据治理的定义和重要性
· 数据治理面临的两大挑战
· 数据治理的三大原则

一、数据治理的定义和重要性

在讨论数据治理之前,我们需要对于数据治理下一个明确的定义,数据治理到底包括了哪些范畴。从我们的视角来讲,数据治理,是指“组织对数据的可用性、完整性和安全性的整体管理”。

数据的可用性,是指数据本身是可用的、可信的和质量有保证的,不会因为本身的数据质量给后续的数据应用带来问题;

数据的完整性,是指我们收集的数据本身是完整的,能够覆盖各类数据应用的需要,不会因为缺少了对某些数据的采集,而带来了数据资产的流失;

数据的安全性,则是指数据治理和分享的过程是安全可控的,这个过程不会侵犯用户隐私,不会给组织本身留下安全隐患。

数据治理的核心,就是帮助我们可以更早、更及时、更高效的发现埋点问题和数据问题,确保后续数据应用的正确性和价值传递。 因此,数据治理的重要性,是毋庸置疑的,它是所有数据应用的基础和根基,它的好坏直接影响数据应用过程中的价值体现。同时,数据治理也是一个组织进行数据资产沉淀的基础,直接决定一个组织的数据资产能否得到有效的沉淀,以及在数据应用过程中能否充分地发挥数据价值。

二、数据治理面临的两大挑战

在进行数据治理的过程中,通常会面临两大类挑战。

第一类挑战,是由于客观的技术问题带来的。

技术方面带来的挑战,其实比较容易理解,业务越复杂,数据应用越多,需要采集的数据源就会越多,需要处理的数据问题也会越多,自然就会有更大的挑战。
具体来说,这些技术细节上的挑战包括:
· 数据传输方面的挑战:比如数据如何通过公网进行可信传输;
· 数据准确性方面的挑战:如何保证数据不重复、不丢失;
· 时间同一性方面的挑战:客户端时间不准确时如何处理;
· 兼容性方面的挑战:不同系统、不同设备之间的兼容性如何处理;
· 性能影响方面的挑战:在数据采集的过程中,如何最大限度地减少对客户端性能和业务的影响;
· 可测试性方面的挑战:如何在数据治理开发过程中方便地进行调试和自测。

除此之外,数据治理,或者说数据治理中的采集部分,还会面临用户隐私与安全方面的挑战,包括如何应对 GDPR 和工信部等法规的要求,如何在组织内部对敏感字段进行审核,如何进行数据在不同行、不同列上的权限控制,以及如何在传输和处理过程中对数据进行加密和解密。

针对第一类挑战,我们建议可以使用统一的数据采集和数据导入工具,比如使用专业的数据采集 SDK,可以将多端数据采集工作进行统一化、专业化和标准化,最大限度地降低在数据采集或者导入的过程中,出现问题的各种可能性。

第二类挑战,是由于人或组织架构的问题带来的。

这些挑战主要体现在:关键角色权责不统一;多个部门之间配合不到位;数据治理各个相关角色缺乏共同语言;不同角色的付出与收益脱节;谁来对数据的质量负责等。

要想彻底解决这些挑战是非常难的,这是一个漫长的过程。不过,我们也可以使用一定的技术手段来缓解这些问题。比如,我们可以使用统一的数据模型,像神策的 Event-User-Item 模型,可以在一定程度上解决各个组织架构和部门缺乏共同语言的问题,同时也能缓解跨部门、跨业务带来的一些挑战。

数据治理横跨多个环节,是一场“持久战”,并不是一蹴而就的事情,它需要我们不断地投入时间和精力,同时也是一个极易出错的过程。因此,在数据治理的各个环节,需要有专业的人员进行咨询、支持、协助和统筹,比如像神策数据的专业分析师等角色,他们是数据治理的专业人员,可以在一定程度上协助客户解决问题。

三、数据治理的原则

结合过去五年累计服务 1500+ 家企业客户的经验,我们总结了数据治理的三大原则:

1.不要先污染后治理,而是应该从源头控制

这个原则比较好理解,就像人生病了去医院一样,一般都是因为已经“生病了”才会选择去医院,这个时候不管采用何种治疗方案,都会对我们的身体有一定的伤害,即使康复了,也有可能留下后遗症。因此,我们平时更应该多看“保健医生”,确保我们尽量不要生病,即便无法完全规避,最起码也可以及时发现异常,通过适当的锻炼增强体质。

一旦数据被污染了,发现、制定方案和清洗均是一个漫长的过程,最终还不一定能达到我们的预期。比如,数据的治理需要伴随 App 发版,但即使我们新版本发出去了,用户也不一定会升级,从而导致部分数据一直被污染。

如果借助数据治理产品,比如神策的 SDG,就可以在数据接入或者数据校验阶段,在产品系统内通过对上报数据的字段设置一定的校验规则,当有数据导入并且校验未通过时,就会在质量看版中进行报警和展示,埋点研发/分析师便可以集中定位/查看/反馈埋点问题。

字段规则如下:
· 设置字段为必要字段,则该字段不能为空值或者不上报;
· 枚举校验,可以设置字段的枚举值内容;
· 正则表达式校验,可以设置字段满足的正则表达式;
· 区间校验,可以针对数值类型字段设置其数值区间;
· 等值校验,可以设置该字段的值为特定值,可以理解为只有一个值的特殊枚举。

因此,对于数据治理,不要先污染后治理,而是应该从源头控制。

2.数据治理的过程要贯穿到整个业务迭代的过程中

在我们刚开始进行数据治理时,通常情况下,由于内部的重视,能够在数据治理方面取得较好的成果。但随着业务的持续迭代,数据应用的需求以及系统本身也在不断发生变化,数据治理也需要随之进行不断地更新与调整。在这个阶段,由于对数据治理的重视程度下降、组织架构以及人员变更、流程不稳定、不全面等因素,数据治理的结果一般很难保持在一个较高的基线,反而会越来越差,直至无法满足最终的数据应用需求。

以在线推荐系统为例,如果用于给机器学习训练的 Item 数据流、曝光和点击事件导入有延迟、故障,会直接影响在线服务,比如出现刷不出新条⽬推荐系统 fail 的情况。

数据治理相关的产品,一般都会提供支持自主设置规则的监控能力,比如连续 3 ⼩时每个 Item 数据流上报量⼩于 100 条,当上报量在设置的时间范围内不满足预期时,会自动上报到报警平台并展示。

因此,数据治理的过程要贯穿到整个业务迭代的过程中,业务发生了变更,组织架构发生了变更,数据治理方案和流程也应该随着进行变更。

3.以产品化、组件化的思路来解决,不能只依赖于人工

神策数据提供了标准的数据采集 SDK,将匿名 ID 生成、基础属性采集、数据打包压缩加密、本地缓存、网络传输、时间校准、远程控制等通用功能,都进行了产品化与标准化处理。除此之外,还可以将数据治理过程中通用需求和通用治理方案,以产品化的方式进行沉淀。

数据治理,我把它理解为“纪检委”的角色,不能只依靠发现问题之后去处理,更应有前瞻意识,时刻保持监督与检查;因为没有完美的方案满足业务发展过程中遇到的所有问题,所以我们唯一能做的是根据业务发展和产品迭代状况,及时调整数据治理的规则。

王灼洲先生是《Android 全埋点解决方案》《iOS 全埋点解决方案》作者,神策数据治理研发部负责人。有 10+ 年 Android & iOS 相关开发经验,是国内第一批从事 Android 研发工作,开发和维护国内第一个商用的开源 Android & iOS 数据埋点 SDK。

王灼洲先生曾就职于北京天宇朗通通信设备股份有限公司,担任 Android 系统工程师。毕业于北京理工大学,软件工程专业。

关于神策数据

神策数据是专业的大数据分析和营销科技服务提供商。公司围绕用户级大数据分析和管理需求,推出神策分析、神策用户画像、神策智能运营、神策智能推荐、神策客景等产品。

此外,还提供大数据相关咨询和完整解决方案。神策数据积累了中国银联、小米、中邮消费金融、海通证券、广发证券、东方证券、中原银行、百信银行、中青旅、四川航空、VIPKID、东方明珠、华润、有赞、百姓网、货拉拉、闪送、驴妈妈、Keep、36 氪、拉勾、VUE、春雨医生、聚美优品、边锋游戏、捞月狗、纷享销客等 1500 余家付费企业用户的服务和客户成功经验,为客户全面提供指标梳理、数据模型搭建等专业的咨询、实施和技术支持服务。希望更深入了解神策数据或有数据驱动相关问题咨询,请咨询4006509827,由专业的咨询顾问为您解答。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK