5

广义因果森林的构造以及在在线交易市场的应用

 1 year ago
source link: https://www.6aiq.com/article/1687173631473
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

广义因果森林的构造以及在在线交易市场的应用

导读 在线交易在今天越来越平凡,本次分享题目为广义因果森林的构造以及在在线交易市场的应用。

全文目录:

  1. 广义因果森林的构造

  2. 实验和部署

分享嘉宾|宛舒 亚利桑那州立大学 在读博士生

编辑整理|Flint

出品社区|DataFun


01

背景介绍

1.在线交易市场

在线交易的蓬勃发展催生了机器学习技术在行业内的应用,其核心之一是实现供给两端的平衡。

image-5171c5c5ba964a73bce1de87ac066998.png-imageStyle

2.价格需求曲线

在调整供给平衡的过程中,十分重要的一个变量就是价格。我们希望得到价格和需求的关系,即价格需求曲线。但得到正确的曲线并不容易,如下例,在忽略季节因素的条件下可能会得到一个价格与需求正相关的错误曲线。

image-dd7494204ce143a39486189822f925cc.png-imageStyle

冬季相对春季是消费旺季,将季节作为混淆因子,在控制混淆因子的情况下,会得到符合经济学认知的价格曲线,价格将导致需求降低。

image-58826fa87a0146d8b6703784af217bf8.png-imageStyle

除了混淆因子缺失之外,价格需求曲线的估计还面临诸多难点。

第一个难点是价格需求曲线非线性。在没有假设的前提下,在线交易市场价格需求曲线可能是任何形状。一个合理的假设是价格和需求呈负相关关系。这个情况下两个估计量是主要的:条件处理效应和条件剂量效应,我们希望通过非参数回归的方法去估计价格与需求的非线性关系。

image-9b1f5dffd5084cdb841f78a97e12bceb.png-imageStyle

第二难点是异质效应限制。地点,季节和用户群体都会影响价格需求曲线,需要捕捉异质性来测量精确的价格需求曲线。

image-c81e5792de1d4b5393889a20842d840a.png-imageStyle

第三点是所有的在线交易市场都会面对海量数据,和大量的特征。简单线性回归难以支持,需要开发出支持大数据的模型。

image-83ecf3767f124b62b3a0ea9d2659449b.png-imageStyle

所以我们希望通过非参数非线性的方法控制所有混淆变量,并支持高维海量的数据。

image-d5fca265ee6945b89f81b899a1e51e3e.png-imageStyle

02

现有算法

1.业界流行算法

以下是业界流行的三种算法。都假设价格需求曲线部分线性,Θ(x) 在给定x时变成一个常数,在实际情况中,这个假设通常不成立。

image-9874661fea4449219cc38ecc42c44a63.png-imageStyle

2.因果森林介绍

因果森林是在随机森林上做因果推断。其通过以下3个功能达到无偏估计。

image-7a37a6e8a9cb484db3876a9b3178c31a.png-imageStyle

image-cde3bca10c86427f835c16052bc15543.png-imageStyle

第一,样本采样。例如通过bootstrap方法对数据采样,对每一棵树做分裂,将样本应用树后得到的叶的预估值聚合求均值,并应用为树的均值。最后将所有树做聚合,得到样本的均值。

image-5adb378e5bba4876890f6d242346e1fb.png-imageStyle

第二,诚实估计。使用永不交叉的两份数据,其中一份用来确定树结构。通过另一份数据来确定估计量可以保证树是无偏的。

image-158429dcee004bc7987d7e22610fab60.png-imageStyle

第三,最大异质性分裂。算法改造了随机森林, 首先计算CATE/CAPE 条件处理效应(theta)代表节点内的异质性,再最大化节点间异质性的差异。

image-9ab5467523e64dd4b654e2986dcfcdf1.png-imageStyle

以下例子详细说明了不同。

image-2c01bb23e85c4d1baf6be15aef2ad802.png-imageStyle

03

广义因果森林的构造

1.剂效函数的非线性估计

image-cc3aa4217a3f4219a93e38d96ff477e7.png-imageStyle

使用非线性回归,有以下几种方式。参数回归在计算参数时需要大量的矩阵运算和假设,样条回归不需要假设但计算量同样大。核回归相对灵活,计算量较小,但对新值计算成本高。

image-fe5e3eb321024550a5b8be46284f902e.png-imageStyle

通过加权平均,例如使用高斯核,通过正态分布给每个估计点周围其他点概率,使用概率作为加权平均来确定估计点的值。

image-62bb370e58944dcdad6ef37ba05232ba.png-imageStyle

2.剂效函数的异质性

非线性通过求剂效函数的一阶导来确定异质性。

image-62255fb4e9404d35b4ecec4c8b5eee25.png-imageStyle

总结如下:第一用核函数方法对剂效函数做非线性估计。第二,定义PDRF刻画两个一阶导的距离,距离越大代表异质性越大。其他如使用双稳健方法,只要propensity score或者outcome model其一准确,最终结果就会准确。开发相关算法SPARKGCF来实现大数据应用。

image-0814ab122a46491498176db37354e908.png-imageStyle

04

实验和部署

1.模拟结果

GCF和其他几种模型的结果对比。

image-d1cf762924ae4752abe859af77e49fa3.png-imageStyle

2.在线部署

image-8c9eabd8653a4925a05912622afe43b4.png-imageStyle

GCF在某网约车定价系统的应用部署方式如下:

在线上实验中,当需求大于供给时用不到模型,当供给大于需求时,价格策略如打折可以加大需求量,提高了完单相对率。

image-730e03c9b1734206a8f06e560c4c3a6c.png-imageStyle

3.参考文献

image-ed83256e4feb41319a66025f5e7fb3b0.png-imageStyle

今天的分享就到这里,谢谢大家。

image-fd22ca57081c4dabbd3c56ba55735789.png-imageStyle

image-9b2ed59a6f374d41b47cce633f64d959.png-imageStyle

点击下方链接即可报名:

2023年亚马逊云科技中国峰会 - 因构建_而可见


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK