1

3 张图 解释我的数据价值观

 3 years ago
source link: https://cosx.org/2016/12/three-pictures-date-value/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

3 张图 解释我的数据价值观

审稿:周扬;编辑:彭晨昱

作者简介:张翔,车轮互联数据副总裁,COS9 年老水友

做数据的人现在越来越强调价值,那么在商业世界里,什么数据价值最高?我们先看几个例子:

一张简单的图表,可以决定一次投资的收益,号称最贵图表的,就是下面这张美国房价自 1970 年以来的走势图,蓝色的线是未剔除通胀,红色的线是剔除通胀,趋势非常明显。这张价值连城的图表,所需要的数据并不高深,相信在次贷之前,有一大批专业研究人员曾经画出并凝视过这张图。

ef4e-tmp

但价值的差别在是否选择相信,以及动手的时机。如果说 200 个点子中,有一个是好点子,那么当时配合 CDS 的做空操作,就是金融从业者一生追求的最好的交易。当然这都是马后炮的总结,单看 2007 年以前的趋势,到底预示着经济结构的转变,还是有巨大的泡沫?现实世界还在不断刷新我们的认知。在预测这件事上,不同经济学家经常得出相反的结论,而中国现在的智囊,正直面无历史模型可套用的局面。这些探险家实操过程中的数据,是单位价值最高的,在面对复杂的社会进程时,数据之上,人的认知和判断,更决定着国家的兴衰。

国家之下,商业集体的数据价值也很大,如果说 “企业家” 就是冒险家的话,在认知边缘探索得来的数据,也是异常珍贵的。看似简单的 ROI 数据判断,就决定着一个公司的成败。

我历经旅游和汽车两次互联网浪潮,其中旅游行业失败的经验,在现在汽车领域尤其珍贵,只有精确到财务数据的运营分析,才能真正保证一个公司商业模式的确立。而这种经验教训都是非常昂贵的,和市面上公关稿件发出来的成功故事,核心差别就在,当我说出你不喜欢的结论时,你相信还是不相信?

f7fc8oqudytxjinlavh

上图小结了常见的移动互联网商业模式:

  1. 耐用消费品和长周期消费服务,移动 app 日活一般可以冲到 50 万上下,交易转化率 0.2% – 1%,但下单用户获取成本高,订单佣金要超过千元这个商业模式才成立。因此二手车,房地产做大宗 O2O 都是成立的,其他领域如果是小宗低频的商品,单独做 O2O 都是不成立的。

  2. 大型 app 日活在千万级别的,比较容易走广告流量变现,根据用户价值和商业化程度,单日活的收益在 0.13 元~ 0.40 元

  3. 其余大部分百万级别的 app,做得好的都是跨界商业化。

上面零零碎碎的数字信息,结合到具体的商业场景里,很容易判断商业的成败,只是忠言多逆耳。数据工作者更像环保部门,没有实权,控制不住冒险家们对风险的独特偏好。所以不能深刻参与并影响商业决策的数据分析,都是耍流氓。

相信很多数据从业者也已经深入到各个行业里,可以说营销领域是数据进入最早最深的。保洁和联合利华因为市场数据的滞后时差,可以产生巨额的收入差异,这也是他们数据投资特别高的原因。另外汽车行业,产业纵深很深,如果选取最浓缩的一张图,就是下面这张汽车消费的生命周期

4e58-tmp

从左到右,是车型消费者对当前车辆满意并持续使用的程度,从下到上是价格从低到高。底部 1、2 象限的趋势很好理解,但价格再往上走,车型开始分化,车辆不只是满足日常的用途,而在中高端消费者心中更加体现个性化的需要。不论在拥挤的 1、2 象限,还是开阔的 3、4 象限,近两年都看到了新车型的成功卡位,比如保时捷 Macan,凯迪拉克 ATS-L,以及吉利博越。随着市场的成熟,也许真正的个性化造车,数字造车,终会实现。

上面三个例子里的分析方法都不复杂,对商业的理解更加重要,也是人类智慧核心发挥作用的地方。现在大数据在扩展了极大的数据源以后,其实数据的价值密度极速下降,我们大部分情况下夸大了数据的作用。电信运营商现在开放到市场上的数据,一天超过 1T,但是创造的社会价值很有限,从数据到价值这条路径有时候是走不通的,挖遍撒哈拉的沙漠,也不一定能发现一粒黄金。但是如果挖的深,说不定能挖到水?很多人又会这么安慰自己,而一口水井在沙漠中间,也是没什么用的,除非挖成规模化。这样的例子还真的有,就是自动驾驶。我们积累足够多的数据,做出足够好的模型,真正推广规模化,是很有价值的,但这个道路,是很漫长的。

所以回到 10 年前,是没有大数据这个说法的,有的是经济统计,生物统计……10 年以后,也许不会有人再提大数据,数据只是我们描述事物的一种语言。有了新的语言就能无视事物本身的规律吗?大数据车险花了那么多功夫,可能发现最大的影响因子还是常识里的出险率,用车频率,以及用车场景。但我们仍然需要这种语言,也许数学太抽象,那大数据会更实用。如果我们把学习英语的时间,腾出来一点学习数据,社会会更快地进步吧。未来我们不需要太多的数据专才,而是需要所有的行业人员都掌握合适的数据知识,数据语言。现在的数据工具,在分析结构化数据,文本数据,甚至图像上都已经有了现成可用的模块,把这些工具和思维,传播到各个行业,是最高效的路径。

有一天你们在各行各业找到了自己的价值,回过头看今天的数据科学,到底什么人可以称为数据科学家?我认为数据科学家是要发现新定理

的,我们大部分人只是翻译他们的成果,在社会中应用而已。数据是一种语言,对比语言的境界,音乐语言是最抽象的,音乐家之间最为尊重,画家其次,文学家垫底,文人打过的笔仗都数不过来啦。反观数据科学家这个词,如果只是归纳一些局部有用的规律,模型,未来肯定要被人抓着骂的。所以我前面的 3 个例子,只能说是数据中医,绝不敢称科学。

深度学习算科学吗?我觉得还差一点,因为它也是局部使用的工具,CNN, RNN 等网络结构还远没有稳定,虽然现在有很多有效的应用,但网络学习的记忆性,跨模型的共享能力都没有建立,只相当于 3 个月婴儿的水平吧。最终人工智能的网络,应该会有复杂系统的特性,而对于复杂网络结构的理解,近两年周涛团队才证明了两个基本指标收敛的一致性。

34e1-tmp

The H-index of a network node and its relation to degree and coreness

这个定理级别的证明,才是数据科学里的踏实一步吧。虽然我们可能找不到第二个隐士张益唐,但我们拿着别人分享的知识,谈着商业价值的时候,不要忘了,是数学的美,在推动科学技术的进步。在这个重商的时代里,纯粹的,科学之美的追求,才最为高尚和值得尊敬。

难得一下子喷了这么多观点,大家有质疑的欢迎来撕 B,我是一个很 Nice(耐撕) 的人。

车轮互联数据副总裁,COS9 年老水友张翔

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← COS 访谈第 24 期:郭绍俊老师 Breiman 访谈实录 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK