5

新老策略模型究竟孰好孰坏?

 1 year ago
source link: https://www.woshipm.com/operate/5678503.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

新老策略模型究竟孰好孰坏?

2022-11-15
0 评论 796 浏览 1 收藏 9 分钟
释放双眼,带上耳机,听听看~!
00:00
00:00

在行业里做过较长时间策略或模型的人,一定会经历模型策略迭代的过程;而迭代过程中你总会遇到新策略是不是一定比旧策略好的问题。新老策略模型究竟孰好孰坏呢?如何分辨?本文提出了4种解决方法,希望能给你带来帮助。

tVrDagHa3fOARZrWOti1.png

任何在这个行业里做过较长时间策略或模型的人,一定会经历模型策略迭代的过程;任何经历过模型策略迭代的人,只要有过独立思考,一定会遇到新策略是不是一定比旧策略更好的问题。

贷前也好,贷中也罢,当前的风险表现都是当前的这套风险策略的结果。当我们要迭代模型策略的时候,KS也好,Lift值也罢,你会高估新模型策略的效果,更为可靠的说法是,你会高估新版对旧版的提升效果。

因为评估的样本,并非完全是应用的样本,这就由此产生了选择偏差,或者说幸存者偏差,我们是在“幸存者”上确保了B好于A。

常见的现象是,新模型永远比旧模型好,但却并不一定是真的好。试问,如果新模型新策略永远比旧模型旧策略更好的话,为什么业务没有变得更好?

因为上述问题的必然性和重要性,新老策略模型究竟孰好孰坏,可以说是这个行业最经典的问题。

我们今天来聊一聊解决办法。思来想去,解决办法似乎有四种,是哪四种呢?这四种又具备哪些优劣点呢?

01 随机流量

最彻底的一种是随机流量。随机一部分流量例如1%,让其通过,给随机额度随机息费,任其表现。也不需要100%通过,政策风险、欺诈风险等前置稳定不变的策略还是可以照常有。

这部分流量,可以用来建模,可以用来评估,最重要的是用来评估。任你选什么样本,任你做多少模型,任你套什么算法,只要在这个随机流量上效果是更优的,就有理由认定为模型是更优的。策略当然也是一样。

当前,普适的前提还是需要满足,例如样本量得足够大、时间窗口得足够长、模型本事稳定性可靠性得尽可能高。因为,真正的目标是未来的随机流量上的效果好。

这个办法没有任何坏处,除了费钱。信贷领域,随机流量的成本太高了,年化24%的产品,多少个好客户的收益才能弥补一个坏客户的成本?

所以,这个办法用的并不多。只有头部效应明显、营收稳定的平台有可能会预留一部分资产预算用于随机流量。

也不对,远超过24%年化的那个黄金年代,也适用,只是他们不是为了随机流量而随机,而是没有太多风控,暴力催收+高息可以搞定。

02 拒绝推断

顾名思义,拒绝推断就是对拒绝的样本进行表现的推断,是去解决幸存者偏差的问题。有了全量样本的表现,模型策略孰好孰坏一算便知。

上面说的随机流量,其实就可以看作拒绝推断的一种解决办法。其他的办法,不管是推断拒绝样本的表现也好,还是获取拒绝样本在其他产品上的表现也好,总归是非真实的。你说引入了信息,我说引入了噪声。

引入不精确的信息来解决精确性的问题,总归是值得怀疑的。

所以,对于拒绝推断,实际上在用的是少之又少。因为太多假设,因为不准,就不如不用,就像判别模型大体总是比生成模型有效。

03 冠军挑战者

国外来的叫法,但其实就是ABtest。

当前线上的策略作为冠军组,拟上线的策略作为挑战组,挑战组可以有多个。因为表现期滞后且损失大,随机切小部分流量给挑战组,不宜过多,例如10%。任其表现,优劣自明。

挑战成功,则挑战者成为新的冠军者,可以全部切换新策略。但也可以不全切,甚至可以永远保持50%:50%的冠军挑战者。好处当然是对比得更充分,且可以应对突发情况,其一下线其一递补。

ABtest当然具备很强的严谨性,但在风控领域,效率不行。前已备述,风控不需要做ABTest?

ABtest最大的优势是在当你无法评估多个方案的优劣时,你不知道哪种字体、哪个颜色、哪种文案、多少度的倒角,究竟哪个好哪个坏,试了才知道。

而风控领域,你做了一个模型,然后跟老板说我也不知道有没有更好,测了才知道。祝你好运!

你做的模型一定是要离线评估更优的,当然,离线评估没有线上真实去测的可靠性那么高,但也可以尽可能高。

04 分群评估

上述办法的弱点都很明显,那有没有弱点没那么明显的办法?有,那就是分群评估。

请君静听。

分群评估当然就是把整个客群分成很多的客群,分别看这些客群下的效果。关于分群的艺术,可以说是互联网业务中最重中之重的法宝。不信?我的客群观,互联网业务的流量之争。

分群评估的奥秘在于,不同客群的通过率或者额度定价是不同的,受策略影响大的客群评估效果离真相越远,那受策略影响小的客群评估效果则离真相就会越近。

在一个通过率10%的客群上,新模型优于旧模型易如反掌;在一个通过率90%的客群上,新模型优于旧模型才是真的更优。

分群评估在这个问题上有效,取决于一个假设,那就是一个模型相比另一个模型要好,那会是全方位地好。如果模型B优于模型A,那么不管是整体,还是各个客群,都是B更好。

反之亦然。在受样本有偏影响更小的客群上,即可靠性高的客群,新模型优于旧模型,则有理由认为在其他客群上也会更优。

值得强调的是,我们所讨论的是模型策略迭代的对比,如果你针对的就是局部客群的优化,则不在此列。

前面三个你大概率都看过,那第四个值得你看四遍。

仅存的问题是,局部客群的提升幅度能多大程度上代表整体?

我不喜欢过度依据数据来判断道理,道理很多时候是可以跨越数据而成立的。如果一个数据不符合某个道理,我更倾向于怀疑数据而不是道理,但程度问题必然还是依靠数据。

上述程度问题我无法判断。如你们有这样的试验数据,或者有这样的文献结果,请告知我。以飨读者。

专栏作家

雷帅,微信公众号:雷帅快与慢,人人都是产品经理专栏作家。风控算法工程师,懂点风控、懂点业务、懂点人生。始终相信经验让工作更简单,继而发现风控让人生更自由。

本文原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

给作者打赏,鼓励TA抓紧创作!

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK