4

智能指标平台建设和指标自动化

 1 year ago
source link: https://zhuanlan.zhihu.com/p/609520901
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

导读:指标是企业管理的原子数字表达。为了用指标反映企业业务和管理情况,对企业管理和业务最重要的最有价值的指标实现洞见、挖掘和管理,Kyligence Zen 基于核心 OLAP 能力打造了一站式指标平台,本次分享题目为 Kyligence Zen 一站式指标平台。

今天的分享会围绕下面四点展开:

1. 指标建设的挑战

2. Kyligence Zen 一站式指标平台

3. 指标自动化的核心价值

4. 从数据驱动到指标驱动


分享嘉宾|宗正 Kyligence 资深技术布道师

编辑整理|张亚瑟

出品社区|DataFun


01/指标建设的挑战

越来越多的企业和部门不仅把数据运用到工作生活的各个方面,也希望数据能够带来更大的价值。在麦肯锡的《2025 数据驱动企业》报告中可以看到,两三年内绝大多数人都会使用数据来优化他们工作的各个方面。而对于发挥数据价值而言,指标是非常关键的一环,那么首先我们来看下指标建设中的一些问题和挑战。

1. 数字化转型陷阱之“指标孤岛”

大家都在做数字化转型,或者是基于数据的处理加工工作,我们经常会听到有“数据孤岛”这样一个概念,实际上指标也会存在孤岛。

如图可以看到,在传统的数据分析链路中,很多企业会把这些指标落在 BI 报表或者 ETL 处理的一些宽表上,这是由历史原因造成的。随着分析工具的引入,最开始围绕数据提炼出的这些指标为业务所服务的时候,一定会基于某一款特定的分析工具来进行,在特定工具里面所定义出的指标可能有自己的定义、逻辑和上下文的串联。

久而久之随着更多分析工具的引入,当希望把它复用到其它的工具时,就会遇到很多的问题:首先就是不同的定义口径在各个不同的业务部门或各个不同的团队之间可能会造成一些混淆和困扰,如果指标固化在个别报表或者业务系统当中,随着指标或是基于指标的运用不断丰富就会形成越来越多的孤岛。

在这样一个契机下,指标中台应运而生,大家可以看到如图右侧所示,我们把各个应用里面所定义的指标在数据和应用之间做了一层衔接,这一层衔接用来存储指标的定义,这是指标中台最早切入的形式。

2. 数字化转型陷阱之“浑浊的数据湖”

另一个更加突出的问题是“浑浊的数据湖”,它带来的问题主要集中在三个方面:信任、重用和成本,下面我们来具体看一下。

如图是一个客户的真实案例,是一家头部互联网电商,随着数字化转型的深入,在过去的几年时间里,这家电商基于云上的数据湖为主体去建设所有的数字化运营报表,可以看到,主体部分看起来会感觉非常混乱。实际上整个数据处理的起始点还是很清晰的,从不同的源头把这些数据对接到数据库里,大概有 5000 到 6000 张表,但是往后面每一个业务需求都是基于源表去生成相应的宽表,基于这样的宽表再去做进一步的聚合分析。

以 TX_ORDER 这张表为例,在这家电商近两年的数字化转型过程中所涉及到的宽表和聚合表膨胀到了超过 1 万张,整体的所有的这些宽表和聚合表已经膨胀到了将近 100 万张左右。业务侧在使用的时候,数据人员进一步使用和加工这些指标的时候,不知道这些宽表基于怎样的标准,来自哪些团队,很难信任并使用。有新需求过来继续走重复的流程再造一份宽表或聚合表,难以复用的问题浪费了大量的资源成本。

3. 指标中台让数据湖“清澈见底”

针对上述问题,指标中台可以做到非常好的收敛。

整个图的直观感觉十分简洁,指标中台存储、定义指标的逻辑表现,可以开放给不同的业务部门一起审核、判断,最终基于这个统一的定义再向右扩展,原先是非常杂乱的一些表,现在是成体系的指标。对于这样一家头部互联网企业,通过指标中台去管理的就不再是超过 1 万张表而是只有 2000 多个核心指标。在核心指标之上,不仅仅数据团队可以基于核心指标去进行相应拓展,业务也可以在充分信任的基础上直接使用。对业务团队、数据团队所能带来的价值可以非常清晰地在指标中台上显现出来。结果上,从成本角度,实际 TCO 降低了千万级,这是一个非常可观的收益。

02/Kyligence Zen 一站式指标平台

接下来介绍一站式的指标平台 Kyligence Zen,可以带来怎样的典型特性和相应价值。

1. Kyligence Zen 一站式指标平台简介

数据中台的理念是聚焦指标,高效决策。

聚焦指标,过去的理念是数据驱动,数据驱动可能会产生模型和表。数据人员比较熟悉模型和表,对这些模型和表的加工也非常熟悉。但是业务人员对模型和表实际上是非常陌生的,让业务人员对着表去做特征选取会感觉非常茫然。现在我们希望统一到一个以指标为核心的平台上,不仅仅是数据人员、分析人员聚焦在指标上,业务人员也可以聚焦在指标上,带来非常高的效率,而这个改变实际上就是快速的输出决策。

我们经常会听客户聊到他们希望把散落在企业里的数据能够高效地组织起来,但是高效组织起来数据本身不能产生直接的价值。数据要产生价值,要么落地到直观的洞察,要么落地到企业的业务决策,而这个落地或者说转换的过程是不是能够足够快,是我们希望通过一站式的指标平台带给大家的。

架构上非常简单,Kyligence Zen 左侧对接 upstreaming,包括云上数据湖、数仓等不同的数据源头;右侧 downstreaming 是应用分析工具。无论是孤岛现状,还是浑浊的数据湖问题,我们都希望通过一个统一的指标中台来解决,通过指标中台来完成指标的管理、分析和运营。

2. Kyligence Zen 关键能力和核心价值

① 指标目录

第一点非常重要,对于指标中台来讲,首先需要在数据目录的基础上有一个非常完善和统一的指标目录。过去我们通常都是提供 data catalog 来对接不同的数据,在这一层之上我们希望在 data catalog 的基础上能够面向业务侧,提炼出一层指标目录。

这里是一个零售场景的例子,可以看到一些和零售相关的指标被统一地定义和管理在平台上,并且口径可以由不同部门或者涉及到的干系人进行审核。指标目录是指标中台的基础,后续指标的消费等等都可以基于统一的指标目录来完成,直至输出最终的决策。

② 目标管理

第二点,对于指标的消费,我们从很多的客户这里看到,无论是对接 BI 或应用系统,还是简单地拉出一个仪表盘,最终还是要为业务或者决策来服务。所以我们把指标目录里的一些指标进一步逻辑梳理成和业务目标相关的类似树状的结构,对于业务目标可以进一步的拆解来绑定到这个指标。指标当前进度、历史状态以及对相应状态跟踪之后的评判,都清晰可见,从而使不同部门可以更好地协同管理,而这个协同管理实际上是直接为目标服务的。这也是我们一个非常创新性的功能,在指标的基础上去服务业务目标的工作。

③ 指标自动化

再进一步是指标的自动化,我们在聚焦指标之后,还有很多工作需要去完成,这些工作是继续交给数据分析人员、数据工程师来完成,还是平台可以去帮助完成,或者平台可以更高效地完成。这里可以看到,并不需要依赖 SQL 语句,我们可以通过界面的形式来完成指标的设计。

在指标消费的过程中,可以进一步的进行指标整体查询的加速。指标一定会基于不同的数据源表,从数据团队的角度,需要去进行相应的数据建模,在建模的基础上才可能生成相应的 ETL 任务和一些宽表。这是传统的形式,而现在我们希望大幅降低数据使用的门槛,最重要的就是降低建模的门槛以及加速指标。在界面上可以看到我们对于指标有缓存的功能,这是一个非常重要的智能加速的切入点,直接在界面上就可以完成指标的整体的自动化操作。

④ 指标 API

最后一个关键能力就是对接不同的系统。因为指标平台需要去对接不同的应用,要能够帮助定制协同工作流,让不同的应用围绕指标进行消费的时候,能够以统一的方式开放出去。我们有标准的 API 的形式来进行直接的对接。

⑤ 一站式指标平台,助力提升从数据到决策的实效性

一站式指标平台,不管是从数据这一方,还是从前线的业务侧,最主要的一点,就是提升从数据到决策的时效性。如果加工链路仍然是以散落的 ETL 宽表的形式,那么数据到决策的过程可能会非常漫长。而通过一站式指标平台,不管是从交付指标、消费指标,还是从整体去管理指标,从不同的方面,都可以显著提升从数据到决策的效率。

从交付或者开发指标的角度,我们通过一站式的平台,希望去简化数据加工链路,降低开发门槛,简化数据和 IT 团队的使用方式,从而把更多的时间花在实际业务需求的实现上,让价值得到更好的认可。而另外一方,对于业务团队而言,在使用的时候就可以不依赖数据和 IT 团队,可以更快地基于指标体系的核心指标,快速输出洞察,或者是基于一些核心指标进行决策、衍生。从管理指标的角度,如前面两点所提到的,在统一口径的基础上我们可以去避免 ETL 任务宽表等一些重复的资源建设。这个不仅仅是成本降低,也可以使数据价值转化率得到非常明显的提高。

03/指标自动化的核心价值

1. 新零售场景的宽表爆炸

进一步来聊一下之前提到的:在新零售场景中,一个简单的零售模型,包括订单信息以及一些客户和渠道的维表,这样一个简单的模型到了不同的 BU 甚至是同一个 BU 中,在数字化经营和分析的过程中会不断地产生各自的数据集,可能这些数据集所基于的维度和指标是非常近似的,但是因为没有一个统一的定义规范,就会不断生成宽表,带来巨大的资源消耗。

2. 指标“收纳”利器 – OLAP 多维模型

我们首先引入把多维模型引入进来,它是指标收纳的一个非常重要的武器。上图中间部分是一个多维模型的简单结构,这里所处理的就是不同维度的组合,以一个清晰简洁的结构把对应的这些维度组合相应的数据完整的收纳到一个模型。同样服务于这样一些需求,但是不再需要处理大量的 ETL 任务或者宽表,所要基于的就是一个或者少量的模型的形式,这些模型所涉及到的表和维度都可以收纳到它的整体结构中,而每一个点上的索引,实际上就是之前所关心的不同的维度和指标的组合。每一个点都是在父一层结构上衍生出来的,具备了非常好的复用性

3. 零代码建模,为业务和数据团队带来“双赢”

我们所做的就是在表之上,指标之下,引入 OLAP 多维模型这样一层,以简洁清晰的模型结构为依托,把大量的指标体系化地收纳归拢。但这里也自然会想到,既然要做 OLAP 建模,一定会带来一些额外的工作,甚至于新的学习成本,因此对于一站式指标平台来说,我们希望去做到支撑零代码建模,零代码建模对于业务和数据团队是一个“双赢”的效果。

以零代码建模为基础,对外开放的仍然是指标,可以想象到对于业务人员不需要去了解数据模型的细节,而是一些能够看得懂的东西,也就是指标,或者说对他来说更具亲切感的内容,直接去输出相应的洞察和业务决策。而对于数据团队来说,由于建模的门槛被降低,很多细节的内容被屏蔽,使得数据团队可以更好地去挖掘数据价值,为业务团队所服务。这样生产力就可以被成倍地释放出来。

4. 零代码建模,无缝对接 Kyligence 核心 OLAP 引擎

上图中最左侧是数据团队要做的事情,对接不同的数据源,首先形成一个 data catalog,在底下会有 Logical DW 去自动完成。最右侧的消费指标,我们会通过开放式的 API 去进行流程的整合,有标准的 REST API 形式,有不同应用的连接器,对于 BI 是通过一个 view 的形式开放出去,底下所有 SQL 的转换都是这个平台来自动完成,不需要手动给出 SQL。

在数据目录的基础上,很关键的是去建设出一个统一的直接可以为业务人员来使用的指标目录。首先梳理出一些基础指标,可以基于不同的时间去智能衍生,还可以在不同的指标上去做一些运算得到一些复合的结果。所有的定义都可以直接从业务的角度来切入,而数据人员只要把这些定义按照整个平台所能够接收的格式在界面上去做,或以模板的形式来完成。这样数据团队就可以将更多精力集中在实现业务需求、生成指标定义上。

底下的 OLAP 建模是由我们核心的 OLAP 引擎来完成的,包括创建整体对应的模型,以及在这个模型上需要的节点上去点亮所对应的索引,每一个索引对应的不同维度和指标的组合。

建模只是第一步,第二步是如上图中间的勾选项,对于不同的指标,可以根据其使用的热度进行加速,或者根据业务需求的优先级来加速,这就是智能缓存 Smart Cache,并且加速过程会随着业务不断迭代来进行相应的改进,原因在于有些指标是有业务实效性的,可能在最近的六个月会使用得非常频繁,但是之后随着业务的改变可能使用频率就会大幅度降低。

底下的 AI 增强引擎,不仅可以完成建模、加速,而且整体的运维过程也是由迭代完成,可以去直接探知现在哪些指标的热度可能会有变化。对于数据团队而言,本身可能要花费大量的时间在底层的代码或者建模工作上,现在给到他的直接就是跟业务最贴合的指标的设计,以及在指标的使用过程中整个平台围绕着业务用户的使用习惯给出的一些建议性的指导性的内容。用户所要做的就是判断,并对系统指标进行调整。也就是上图中虚线以下的部分,都可以由平台去完成,而虚线以上更多面向的是业务主体,可以更好地开放给数据和业务团队。

04/Kyligence Zen案例 – 云成本管控

上图展示的是我们自己公司内部的一个真实场景。对于云成本而言,不管是单个的云服务商,还是多云,对云上组件的使用有很强的一个特性,就是可能在短时间内产生的费用会有一个激增的情况。我们的平台能够很好地进行跟踪,对成本的计算可以通过一个统一的指标模板来导入对应的指标。

可以看到不仅仅有云上成本的计算,也有非常关心的比如超期使用的资源、风险资源等,都可以在统一的指标目录进行查看探索。



再进一步,比如对于超期的或者风险的资源,可能是内部 IT 或者财务管理都非常关心的资源,其热度可能会非常高,我们可以去生成相应的缓存,而缓存之下的建模、索引、数据的抓取都是由平台来自动完成。

在有了这样一个指标目录之后,传统的 BI 工具是基于表基于列来选取,而现在可以基于业务人员更熟悉的一些指标来选取,这样就可以帮助业务人员自助式地使用。

更重要的,不同的云成本管控的指标,实际上就是希望去实现把云成本控制在整体的预算之内,这一定是各个部门首先协同定义好的,一个目标的子目标需要去关联到哪些指标,都可以在指标目录之上由这个目标管理来做一个非常好的协同式的跟踪。

05/从数据驱动到指标驱动

1. 两点之间(Data -> Decision)指标最短

我们希望去加速从数据到决策的过程,而这两点之间,指标最短,这意味着指标是最有效率的方式,或者说指标平台可以更高效地助力决策。不管是从数据工程师,还是从业务人员的角度,过去可能面对的是一张表,去看数据的区别,但是这张表上哪些是可以用的,是否还需要做进一步的计算,这可能是一个非常茫然的过程。而现在从指标驱动的角度,Kyligence Zen 提供了非常丰富的、基于行业和场景的指标的集市,可以快速应用于不同行业和场景的一些指标模板,这些指标模板和业务数据匹配之后可以非常快地在指标目录里面看到它对应的数值,而这些指标可以由业务人员轻松的选取并完成相应的决策,从而帮助去实现最后的业务洞察和决策。

对于业务团队而言,指标相较于表来说是一个更加亲切的数据呈现形式,当然可以在这个基础上去自助式使用。

最后对于指标中台而言,依靠零代码建模的能力,可以提高整个数据团队的生产效率,原先可能花大量的时间去学习建模,去准备这些宽表和 ETL 的任务,现在就是直接更加贴合业务去进行指标定义的设计、运维和管理,而数据的准备、建模过程都可以由平台来完成。不仅是生产力的提高,也是一个非常高效挖掘数据价值的过程。

以上就是今天分享的内容,欢迎大家来试用 Kyligence Zen。


分享嘉宾

《数据智能知识地图》下载|

上下滑动⬆️⬇️,查看《数据智能知识地图》数据集成模块,完整版请关注公众号“大话数智”下

v2-fa67010b71e2291f0519ed404a30d14c_720w.webp

DataFun新媒体矩阵

v2-62ab37606322dfda1443d9153bdb7536_720w.webp

关于DataFun

专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章900+,百万+阅读,16万+精准粉丝。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK