3

数据江湖,回归 5 式

 3 years ago
source link: https://cosx.org/2016/06/five-useful-regression-models/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

今天要跟大家分享的主题叫做:数据江湖,回归 5 式!

如今啊,大数据时代,群雄割据,天下大乱。各位童鞋,闯荡江湖,凶险难测。没一些必备的看家的本领,就想从数据出发,直达价值的彼岸,恐怕很难。

为此呢,熊大教大家几招防身绝技,叫做:回归 5 式!简单的说,就是 5 种最常见的回归模型。这 5 个招式,看似简单,却是熊大行走江湖的看家本领。回归 5 式,就如同少林长拳,看似平淡无奇,但是如果辅以深厚的内力,就能威力无比。

所以呀,今天除了要教给大家这回归 5 式以外,熊大还要跟大家说道说道这内力的修为。没有深厚的内力修为,任何绝妙的功夫,都是花拳绣腿。

好了,闲话少说,先从回归 5 式开始。

回归分析第 1 式:线性回归,或者更严格地说,是普通线性回归。

前面我们说了,什么是回归分析?回归分析就是关于 XY 相关性的分析。那么具体到线性回归,它的主要特征是什么呢?

普通线性回归的主要特征就是:它的因变量必须是连续型数据。什么是连续型数据呀?简单通俗的讲,就是得是连续的。例如:身高、体重、价格、温度都是典型的连续型数据。但是,在实际工作中,由于所有的计算机,实际上都只能存储有限位有效数字,因此,在真实的数据江湖里,不存在严格的连续数据,只有近似的。接下来,我们讨论一下,普通线性回归在数据江湖中,有哪些重要应用?太多了!随便说几个。

股票

先说一个简单刺激的:股票投资。

这里的因变量 Y 是某只股票或者资产组合的未来收益率。这是一个连续型的因变量。如果我们能够建立 Y 和一系列 X 的相关关系,例如 X 可以是该股票背后企业的财务特征,我们就可以通过 X 去预测 Y,然后通过合理的交易策略,实现超额收益率,俗称:发大财!

客户价值

其次,再考虑一个关于消费者的案例:客户终身价值。

这里的因变量 Y 是一个目标客户,从现在开始,到未来无限远时间,所能够给企业创造的收入,经过一定的利率折现到现在的价值。如果我们能够建立 Y 和一系列 X 的相关关系,例如 X 可以是这些消费者的人口统计特征以及过去的消费记录,我就可以通过 X 去预测 Y。这样可以帮助我们识别潜在的高价值客户。

医疗健康

最后,再说一个关乎医疗健康的案例

大家都知道,高血压是一个非常普遍的慢性疾病,是个人或者社保医疗支出中的一大块。而血压这个 Y 也是一个连续型数据。深刻理解一个人的血压 Y,同各种相关因素 X(例如:饮食习惯、服药习惯)之间的关系,对于改进健康、降低医疗开支,有重要的意义。

总结一下,在我们通往价值的坎坷道路上,一定会遇到各种各样的数据挑战 。他们中绝大多数,都可以被规范成为回归分析问题。而只要这个问题的 Y 是连续型数据,那么回归分析第 1 式 “线性回归”,基本能搞定!

回归分析第 2 式:0-1 回归。

如果我的因变量不是连续的怎么办?例如:是 0-1 型数据。什么是 “0-1 型数据”?0-1 型数据就是说呀,这个数据只可能有两个取值

例如:性别,只有 “男”、“女” 两个取值;消费者的购买决策,只有 “买” 或者 “不买” 两个取值;病人的癌症诊断,只有 “得癌症” 或者 “不得癌症” 两个取值。类似地,大家可以给出很多 0-1 型数据的例子来。

碰到这种数据挑战的时候,线性回归就不好使了。你需要的是回归分析第 2 式:0-1 回归。0-1 回归主要砍的就是 0-1 型因变量的问题。0-1 型的因变量又包含了很多很多的招数,我个人认为,其实大同小异,最常见的有两招就可以了。一招是:逻辑回归,也叫做 Logistic Regression;另外一招是:Probit Regression。

具体想学的同学,大家可以去查 “广义线性模型” 相关的武林秘籍,我就不再这里赘述了。我主要想跟大家分享的是:“0-1 回归”是一个非常重要的回归模型,你要不会这招,休想行走数据江湖,永远不可能到达价值的彼岸。

为什么这么说?因为相关的重要应用太多了,咱们说几个时髦有趣的。

互联网征信

第一个例子。现在征信特别火,尤其是互联网征信。

征信是啥?征信就是对某个体的信誉做评估。啥是信誉?就是如果我借钱给你,你按时还钱的概率有多大?所以,对于这个业务而言,因变量就是一个借款人是否会还钱。而 0-1 回归的主要使命,就是评价该借款人未来还钱的可能性。是一个介于 0 和 1 之间的概率。如果产品经理愿意,就可以把这个概率经过一定的单调变换,变成一个具体的征信得分。你看,0-1 回归重要不?

网上购物

再跟大家看一个例子。大家都喜欢网上购物,什么淘宝、京东、天猫啥的。每一次登陆进自己的账户,我们看到了什么?是不是总能看到一些被推荐的商品,“猜你喜欢”,对不?这些商品是怎么被推荐出来的?这个背后啊,也是一个 0-1 回归的问题。

举个例子,咱先找一堆 X1X1 描述消费者的特征(什么性别啦、年龄啦、购物习惯啦等等),然后咱们再找一堆的 X2X2 描述商品特征(什么品类呀、价格呀、品牌呀、型号呀等等)。咱把这两堆 X 放在一起,问一个问题:说您会买吗?Y=0Y=0 表示不会,Y=1Y=1 表示会。这就是一个标准的 0-1 回归问题了。

有了这个模型,我们可以知道:对于什么样的消费者,推荐什么样的商品,会产生什么样的购买概率。然后在所有的待选商品中,挑选概率最大的(例如 5 个),呈现在您的眼前。这就成就了个性化推荐。

有人说了:“王老师,您说的不对,我们用的模型可不是逻辑回归那么简单,老复杂了。” 这个木有问题,真正的工程实践,所用的模型,有可能更简单,也有可能更复杂。但是,都逃离不了 0-1 回归的本质所在。

社交网络

最后,再分享一个有趣的例子。现在啊,这社交网络特别火,什么 Facebook、Twitter、QQ、微信、微博、陌陌等等。

对于社交平台而言,帮助用户发现好友、建立丰富紧密的好友关系,非常重要。为此啊,几乎所有的社交平台都有 “推荐好友” 这个功能。这个功能从本质上讲,跟个性化推荐商品一样,也是一个 0-1 回归的问题。稍微有点区别,可能是,在社交平台上做推荐,我们多了一大类全新的 X,就是社交关系。

例如,在我们考虑是否要给张三推荐李四的时候,一个重要的 X 变量就是 “他们之间有多少共同好友”,或者 “在张三的关注中,有多少人关注了李四”,这些重要的 X 变量是根据社交网络的结构推算出来的,对于预测 “张三是否会真的关注李四”,帮助巨大。

总结一下,在数据的江湖里,你一定会碰到 “0-1 数据” 的挑战。如果没有 0-1 回归分析护身,通往价值的道路一定是坎坷无比。

回归分析第 3 式:定序回归。

什么是定序回归?就是因变量是定序数据的回归分析。那么,什么又是定序数据呢?定序数据就是关乎顺序的数据,但是又没有具体的数值意义。

定序回归

考虑一个特别常见的例子。例如,咱公司出一款新的矿泉水,叫做 “狗熊山泉,有点不甜”。我想知道消费者对它的喜好程度。因此啊,我决定请人来品尝一下,然后呢,根据他的喜好程度,给出一个打分。1 表示非常不喜欢,2 表示有点不喜欢,3 表示一般般,4 表示有点喜欢,5 表示非常喜欢。这就是我关心的因变量。

这种数据常见吗?非常常见!有什么特点?

第一、它没有数值意义,不能做任何代数运算。例如,您不能做加法。我不能说:1(很不喜欢)加上一个 2(有点不喜欢)居然等于了 3(表示一般般)。这显然不对。这就是该数据的第一个特点,没有具体的数值意义。

第二,这个数据的第二个特点是它的顺序很重要。例如:1(很不喜欢)就一定要排在 2(有点不喜欢的前面),而 2(有点不喜欢)就必须要排在 3(一般般的前面)。这个顺序呀,很重要!这就是为什么人们管它叫做 “定序数据”。

我们说了,定序数据没有具体的数值意义。因此,我们不能确信:2(有点不喜欢)和 1(很不喜欢)的差距,是否正好等于 5(超级喜欢)和 4(有点喜欢)之间的差距。事实上,基本上不可能相等,因为没那么巧!

既然这些取值之间的间距到底是多少,谁也说不清楚。那么,把很不喜欢定义为 $Y=1$,还是 $Y=1.5$,还是说 $Y=-3$,都无所谓。同样的,如何定义有点不喜欢,也随意。但是只要这个定义,不破坏顺序就可以了。这就是定序数据的核心要义。

定序回归应用的常见的战场有哪些?前面说了,消费者调查,请大家表达自己的偏好。在线下,这就是最普通的市场调研;在线上,就可能是豆瓣上人们对一个电影的打分评级;在医学应用中,有些重要的心理相关的疾病(例如:抑郁症)也会涉及到定序数据。这就是回归分析第三式:定序回归。

回归分析第 4 式:计数回归。

什么是计数回归?就是因变量是计数数据的回归分析。那么,什么又是计数数据呢?就是数数的数据。例如,谁家有几个孩子,养了几条狗。

计数回归

有什么特点?既然是数数,它就必须是非负的整数不能是负数,说谁家有负 3 个孩子,没这事。不能是小数,例如说谁家养了 1.25 只狗,也没这说法。

计数数据在哪些地方常见?例如:客户关系管理中,有一个经典的 RFM 模型,其中这个 F,就是 frequency,说的是一定时间内,客户到访的次数。可以是 0 次,也可以是 1 次、2 次、很多次。但是,不能是 - 2 次,更不能是 2.3 次。这样清楚吗?

计数数据还出现在医学研究中。一个癌症病人体内肿瘤的个数:0 是没有,也可以是 1 个、2 个、或者很多个。

计数数据还出现在社会研究中。例如,二胎政策放开,一对夫妻最后到底如何选择要生育多少个孩子呢?可以是 0 个、1 个,也可以是 2 个。但是,不能是 - 2 个,也不能是 0.7 个。

要应对计数型因变量,咱就需要回归分析第 4 式:计数回归。计数回归也有很多招数。最常见的是泊松回归、负二项回归、零膨胀泊松回归等方法。欲知详情,请参见各路统计学秘籍。

回归分析第 5 式:生存回归。

生存回归是生存数据回归的简称。而生存数据回归就是因变量是生存数据的回归分析。什么是生存数据?生存数据就刻画的一个现象或个体,存续生存了多久,也就是我们常说的生存时间。

生存回归

因此,我们要清晰定义两个东西。一个是出生,一个是死亡。以人的自然出生为出生,以人的自然死亡为死亡,就定义了一个人的寿命,这就是一个典型的生存数据。该数据,对(例如)寿险精算非常重要。

如果以一个电子产品(例如:灯泡)第一次使用为出生,到最后报废为死亡,就决定了产品的使用寿命。

如果以一个消费者的注册成为我家的网站为出生,到某天离我而去,再也不登陆为死亡,这定义了一个消费者的生命周期。

如果,以一个企业的工商注册为出生,到破产注销为死亡,这刻画的是企业的生命周期。

如果,以一个创业团队获得 A 轮融资为出生,到创业板上市为死亡(请注意呀,这是一个开心的死亡),这刻画的是风险投资回报的周期。

由此可见,生存数据无处不在啊。要分析这种数据,您就需要回归分析第 5 式:生存回归。这样清楚吗?

诶,且慢。细心的同学一定会问:诶,这听起来生存数据不就是一个连续型的数据吗?为什么不用线性回归呢?咱把数据做一个对数变换,线性回归它就搞不定了吗?啊哈,您可真是问到点子上了。您说的一点都没错,本来啊,线性回归是可以搞定生存数据的,如果生存数据是被精确观察到的。

什么?有可能生存数据没有被精确观测到吗?是的呀,考虑一个具体的例子。

咱以人的寿命为例,我们关心一个问题:一个人是否学习统计学(这个 X),是否会影响得到他的寿命(Y)?看,这是一个典型的回归分析问题吧。为此,我们调查了很多数据,隔壁老王不幸被抽中,为此我们想知道老王到底能活多久。

老王

老王今年 60,身体倍儿棒,吃饭倍儿香,核心问题是他还没挂呢,我们怎么知道他要活多久呢?咋办呢?要不再等个几十年,等老王挂了,知道他的精确寿命了,咱们再做分析?这怎么能行呢,万一,我先挂了怎么办!谁来做分析?所以,老王的寿命,这个 Y 到底应该怎么办呢?我们对它不是一无所知,因为他已经虚度春秋 60 载了,所以,我们知道老王的 Y 一定比 60 大。这是一个宝贵的信息。但是,大多少,我不知道。所以,在数据上我们是怎么记录这个事情呢?我们把 Y 记作 60+,看到这个神奇的 “+” 没。只要一个数据后面跟着一个“+”,这表明真实的数据比这个大,但是,大多少不知道。

这种数据叫什么?这种数据叫作 Censored Data,中文被称作截断的数据

如果,咱们的生存数据,没有任何数据被截断,那么回归分析第 1 式 “线性回归”,基本搞定。但是,真实的生存数据,常常存在大量的被截断现象。在这种情况下,普通线性回归是束手无策的。因此,我们必须技出回归分析第 5 式:生存回归。

生存回归也有非常多的招式,这是一个很大的学科。其中有两招最常见,一招叫 Cox 等比例风险模型,第二招叫做 AFT 加速失效模型。有兴趣的童鞋,请参考相关的武林秘籍。

到此为止呀,我就把熊大看家的本领 “回归 5 式” 给大家介绍完了。时间有限,只能跟大家分享基本思想,还有重要的应用场景。具体怎么学,大家需要去翻看相关的统计学秘籍,市场上无穷多。

最后,想跟大家强调一点。仅仅会这回归 5 式,是不够的。我们前面说如果没有深厚的内力修为,这就是花拳秀腿而已。只有在深厚内力的支撑下,这 5 式才能助你在数据的江湖里,降妖伏魔。

那么,这神奇的内力是什么呢?听好了啊,这是熊大的绝密,我不告诉别人的。深厚的内力就是对业务或者科学问题的深刻的理解

所以请记住熊大的名言:要想闯荡数据江湖,您需要:(1)回归 5 式;(2)深厚的内力。衷心祝愿每一个童鞋,在数据的江湖里,一帆风顺,马到成功。谢谢大家。

如果您对我们的内容感兴趣,请关注微信公众号 “狗熊会”,或扫描下方二维码

8

王汉生教授现任狗熊会会长、北京大学商务智能研究中心主任、北京大学光华管理学院商务统计与经济计量系系主任。现为 ISI, ASA, IMS, RSS, ICSA 会员,ASA 会士 (2014 年 6 月 23 日更新)。王汉生

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← 利用 R 语言进行交互数据可视化 数据告诉你:高信誉的卖家应该收高价,还是收低价? →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK