5

知道这12个功能,让你10倍速处理运营数据

 3 years ago
source link: https://www.iyunying.org/seo/dataanalysis/243082.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

运营总要学一些数据分析,越是高级运营,其对数据也往往越敏感,其对数据的运用能力也往往越深入。今天分享的数据处理方面的内容,尤其适用于在运营一途上,刚开始接触数据,但又希望用数据帮助自己成为高手的小伙伴们,这12个功能,让你比使用Excel快10倍的处理数据,从而用更高品质的数据,将更长的时间放在运营思考上。

在这里,我们使用的工具是数据观,重点用到的功能模块是函数表达式在线ETL

一、函数表达式

很多人都用过Excel中的函数表达式,不过菜鸟一般就用些sum、count、left、right之类的函数,顶多用到vlookup、if函数,而高手们则能借助嵌套函数实现一票牛X的自动计算。在数据观中,也有函数,不过这里的函数采用的是SQL的写法。

1、case when

在处理百度统计实时访客数据时,case when 函数多用来对来源字段进行归类,以便于查看,以下3种表达形式就是在处理访客来源时最常用的:

CASEWHEN[来源] in (‘必应’,‘Bing’,‘Google’,‘搜狗’)THEN ‘搜索引擎’WHEN [来源]=‘直接访问’ THEN ‘直接访问’WHEN [来源] like%zhihu%’ THEN ‘知乎’ELSE [来源] END

In:满足其中任意条件,均会显示 then后面的内容=:字段需要完全匹配,才会显示 then 后面的内容Like ’%x%’:是正则表达式的一种匹配方式,简单讲相当于“包含”的效果,只要字段中包含x字符,就会显示then后面的内容

2、Replace

相当于Excel中的替换。

表达方式:REPLACE([字段],‘被替换的字符’,‘用于替换的字符’)

如:REPLACE([访问时长],’s’,”) 即:用空值替换“s”字符,效果如下图

数据观-函数-replace

3、Datediff

DATEDIFF([最后登录时间],[注册时间]) 效果:“最后登录时间-注册时间”的天数

DATEDIFF(SYSDATE(),[注册时间]) 效果:“当前时间-注册时间”的天数

数据观-函数-Datediff

4、Substring

常用于截取字段,更适用于类似提取身份证中特定位置的数字,以及对详细地址中的省、市、县等进行拆分

SUBSTRING([入口页面],9)

这里的“9”意味着左侧数第9位开始截取,保留其右边的字符(包含第9位的字符)

数据观-函数-substring

5、Substring_index

常用于截取字段,更适用截取网址等字符位置不定,但有一定规则的字段

SUBSTRING_INDEX ([入口页面],’//’,-1)

注://指的是要截取的字符,-1意味着从左侧数第1位,保留其右边的字符;数字的正负,意味着是保留左侧的字段还是保留右侧的字段。

数据观-函数-Substring_index

6、Nullif

NULLIF([企业成员邮箱],[企业创建人邮箱])

如果后面的字段与前面的字段一致,则为空值,不一致,则返回前面字段的值

数据观-函数- Nullif

一、在线ETL

接触过BI的人都会对ETL工具很熟悉,它可以将企业中的分散、零乱、标准不统一的数据变成具有标准协议的数据存储到数据仓库中,然后在企业决策需要时快速调用,通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。

在数据观中,同样内置了这么个功能,而且可视化、拖拽点选式的操作方式,让大家使用起来的技术门槛大大降低。下面,正式分享6个我在处理运营数据时常用的功能。

过滤:根据某些限定条件从总量数据中选取所需的部分数据。

在数据观ETL中,可以添加多个过滤条件。在“所有/任意条件的数据”中,“所有”是对所有条件都满足,结果才会出现;“任意”表示只要有一个条件能满足时,结果就会出现。

数据观在线ETL-过滤

2、日期计算

日期计算:对日期类型的数据进行处理

时间,是许多趋势分析、预测分析中非常有用的一个字段。运营中,计算日期差是经常用到的,比如RFM模型中,R-客户最近一次交易时间的间隔,就需要用(当前时间-最近一次交易时间)这个时间差。其它的如日期加减、周几、一年中第几周等也往往是减轻一些特殊日期对运营效果影响的观察角度。

在线ETL-日期计算

3、分组聚合

分组聚合:将多列数据按照某个条件分组并以某种计算方式合为一列。

实际运用中,分组聚合是拼合不同来源的数据时常用的,可以轻松实现跨域效果追踪。目前出现的分组方式有:按日期分组、按来源分组、按IP分组;聚合常用到的是:求和、平均、计数等。

在线ETL-分组聚合

4、排序和累计

排序和累计:对一定范围的数据进行累计求和/计数,或排序。

想要实现定期自动更新TOPN的排名吗?这个功能绝对是好帮手。

在线ETL-排序和累计

5、替换文本

替换文本:相当于Excel中的查找替换

在处理数据中数字和字母混合时很好用。如在导出百度统计实时访客数据后,源数据中访问时长的表现方式为“3s”,就可以通过该功能处理为“3”,以便于之后对其进行运算。

在线ETL-替换文本

关联:将不同的数据表按照共同字段拼合为一份数据

两份数据尽量基于共同字段一对一匹配,可以一对多,但是一定不要多对多匹配,否则拼合后的数据量将是A数据量与B数据量的乘积。

在线ETL-关联

作者:Cari_Zhu

链接:https://www.jianshu.com/p/9e786fc2ed2d


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK