3

数据治理(一):动手前的建设思考

 1 year ago
source link: https://www.woshipm.com/data-analysis/5759162.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

数据治理(一):动手前的建设思考

2023-02-21
0 评论 648 浏览 0 收藏 11 分钟
释放双眼,带上耳机,听听看~!
00:00
00:00

数据治理环节的存在可以帮助企业解决数据不准、或者数据全生命周期的相关问题,那么企业该如何进入数据治理环节、并搭建相应策略?可能在开始之前,企业需要先做好内部调研和思考。本篇文章里,作者便针对数据治理建设发表了他的见解,一起来看一下。

6SSKr5oji1faaxfldr9Q.jpg

数据治理这一概念最近越来越受到企业的关注,笔者也在两家公司完成数据治理从0-1的建设,从数据集成、数据质量、数据资产、数据安全、数据交换各个环节。数据治理是个大话题,包含的环节也非常多,所以拆开了多期内容与大家共同讨论。

数据治理基本上有两种定义。第一类【数据】治理,主要解决指标标准、数据不准的问题,解法相对于聚焦一些,应用工具指标管理平台、数据质量平台,甚至直接由研发“人肉智能”就能够见效。第二类数据【治理】,主要解决数据全生命周期的问题,从数据采集、数据质量、数据应用、数据安全、数据分享各个环节。

数据治理是一个系统化且长周期的工程,虽然治理的路数和思路基本上大同小异,基本上三大抓手“组织架构、治理工具、运营监控”,但是因为下面几个问题,所以在各企业落地的方式和形态都不太一致。

数据治理绝大部分都是由内向外,在企业内部形成闭环,那我们所在部门在公司的角色是重中之重,这影响到可以获得的支持、调动的资源、协调的部门、取得的收益。

第一类国企,那看数据治理这份工作是什么视角,是软件部门所在的治理还是以监察审计出发,可以参考成熟的数据治理成熟度模型-DCMM去建设治理体系,不会犯错,看当前有多少预算,多少资源选择性去做(下图有些删减,仅供参考)。

Ii4yF933mRQyBKV7w7RY.png

第二类私企,一般业务部门的数据团队进行【数据】治理,保障数据的准确性的一致性即可。而在数据中台则考虑的更全面、更体系,笔者现在是数据中台,所以后续内容站在中台视角讲的多些,下面先简单讲讲数据中台。

数据中台是围绕数据从生产、存储、质量、使用、传输、共享、冷存储到毁灭的全生命周期,是满足数仓研发工程师、数据科学专家、产品经理、分析师、决策管理者等不同角色对数据的应用需求,具备海量多源异构数据整合、实时数据计算与发布、统一通道数据调用与分析能力,支持高可复用、高可靠、高效的且开放型数据治理能力的数据应用平台。

从数据的价值角度来看,总结有两个阶段「业务数据化和数据业务化」,企业处于不同的阶段,我们所实施的治理的步骤顺序也有一定重心调整。

业务数据化实际上就是业务发生的过程形成数据,比如教培行业的课中学习数据、老师授课数据、广告投放数据等等。那这一部分治理的重心就在于数据埋点、数据入库、数据存储、数据标准、数据质量、数据指标,保证数据及时、完整、一致,为数据分析做好有效有效支持。

数据业务化实际上就是数据加工后,从中找出规划后反哺业务。比如音乐平台,根据用户之前的听歌记录,通过算法判断用户的喜好,推送歌单给用户,提升用户的粘性和留存。亦如电商平台根据客户的历史购买记录,给客户推荐商品。这个阶段重点治理数据仓库、数据资产、数据分析、数据安全、数据应用等,释放数据价值。

如何评估数据治理的价值呢?这往往也是令我们最头疼的,本质上来讲数据治理的价值就是降本增效、控质提安、赋能决策,治理的收益有很多,但是要知道的是上面想拿哪些收益,这也是影响治理的重要性和执行力度的关键。

成本一般由四部分构成,分别是采集、计算、存储、应用。

降本是这里面收益最直观、见效最快、最好衡量,毕竟和Money挂钩,这四部分收益最快的存储>计算>应用>采集。

存储可以直接采用下服务、删除冗余数据等手段,衡量的指标可以直接用“存储节约TB/元”。

计算可以在有限的资源里去合理的分配,或者使用监控手段,比如一条计算大约多少钱,当然这一部分有明确的业务预算和高层的支持。

应用和采集是相对不好拿收益,采集是大数据的源头,理论来讲其实是越多越好,而应用是最终服务的呈现,治理的话牵一发动全身,还需慎重。

增效的角度可以从查询效率、查询时间、时间成本都可以作为治理收益。比如我查询数据之前要用一个小时,现在用十五分钟。

从数据质量角度出发,数据故障率、数据及时率、数据完整率等指标进行监控。

安主要是讲数据的安全,数据安全可以从风险项、数据安全覆盖率、数据脱敏等角度出发。

“安全无小事,责任终于山”,安全这个方向要么不出事要么就是出大事,所以数据一定要监控留痕,以防事后追责。最近行业内安全事故层出不穷,各个企业也都越来越重视。

5. 赋能决策

这个方向比较长效,串联部门也多,更需要深入业务,比如数据模型、画像标签直接带来的收益,还有一种思路比如说不同数据源它的业务产生的价值区别。

对内有的时候治理规则太多,不能落地,导致大而全,没办法集中资源,拿不到有效的收益。对外有的时候治理规则太多,不能落地,毕竟需要很多团队参与,效率协同也很重要。

所有数据治理体系已经很成熟了,阿里云的dataworks、华为云的DataArts Studio等,但是如果采用自建数据体系,一定不能因为治理而治理,要从实际出发,找到企业自身痛点,确定优先级。

EbOP6OEzE4yEI2itbOCN.png

首先,在做数据治理前重中之重一定要有高层的支持,自上而下的去推动,否则只是停留在口号阶段。其次,数据治理谁负责?谁执行?从笔者公司的数据中台角度来说,建立数据体系,平台工具,最终由业务数据团队协同配合和使用。

数据委员会的建立,一般是有企业的高级管理者组成,负责数据战略创建和批准,负责项目、政策、授权的制定和协同。

数据治理小组一般是负责人角色,负责整理体系的方案构建、平台落地、评估规划。

业务治理团队一般是执行者角色,使用平台工具按照标准规范生产加工数据,根据评估体系来治理数据所存在的问题。

协同团队一般财务、hr团队,给予数据治理资源的协调和支持。

数据治理不是一个 “阶段性项目”,而是一个“可持续的运营项目”。针对企业存储、规范、质量、资源、安全、价值等六个方面形成数据治理评估体系,可以采用健康分的形式,以现存的问题为驱动的理念,覆盖事前、事中、事后的全链路主动式数据治理和治理评估。

数据治理是一个大工程,所以在动手之前要做好充足的思考和调研,所以也就有了此篇文章,后续数据治理章节会以平台工具为话题去安排,按照体系中的架构图,包含指标管理平台、数据质量监控平台、数据地图、数据安全中心等。

本文由 @芥末先生 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

给作者打赏,鼓励TA抓紧创作!

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK