5

异动分析技术解决方案-异动归因之指标拆解

 2 years ago
source link: https://www.51cto.com/article/705282.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
异动分析技术解决方案-异动归因之指标拆解-51CTO.COM
异动分析技术解决方案-异动归因之指标拆解
作者:阿里技术 2022-03-30 12:41:27
归因的方法有多种,这篇文章的重点是指标拆解,也是我们做业务分析时最常用到的方法。我们的目的是解放人力,将指标拆解实现自动化,一方面可以加快业务迭代速度,快速定位问题;另一方面可以对可能产生异动的维度进行全局量化,增强可比性,明确下一步的业务行动点的优先级。自动化异变归因的目的是为了尽快判断并抓住机遇,寻求以数据驱动作为灯塔指引业务航向。

作者 |伊琏

唯一不变的是变化,在拥抱它前,请事先探知、归因、并充分准备。

在相对完善的指标体系建设背景下,我们需要通过指标以及指标波动的解读来描述、追踪、推动业务。当一个指标波动时,我们首先需要从业务视角判断其波动是否异常,即异动检测,其次判断异常背后的原因是什么,即异动归因。

归因的方法有多种,这篇文章的重点是指标拆解,也是我们做业务分析时最常用到的方法。我们的目的是解放人力,将指标拆解实现自动化,一方面可以加快业务迭代速度,快速定位问题;另一方面可以对可能产生异动的维度进行全局量化,增强可比性,明确下一步的业务行动点的优先级。自动化异变归因的目的是为了尽快判断并抓住机遇,寻求以数据驱动作为灯塔指引业务航向。

将目标指标定义为445879074a592eea370334d0adc1a0ef2cbf47.png, 波动为c45dbfc36bd9aef28bf8409675ac8ecd7b03c7.png,其中08087aa1365214597dc765e31c9f7ae204bd96.png是当月的数据,e58b9123477336daad3981ee789d3a92c78a13.png为上个月(同比/环比)的数据。

文章目的是为了研究组成b38691d3383622b145a367d829365070ad7e91.png的集合f8c9deb16c407ba24af038b53a84876a892d1e.png对于f68e85429cffc22efa0421b01a605b93f5c67f.png的贡献:

d6d84940385b64a5df1949bf13cfb897c774eb.png其中,86a3360719622726f34118b8deb834ce033f7a.png表示指标(或维度)162523a82eebff9893b34718a1dd1d4b467a80.png对于38a97a160d5db4ca435033190f8b9ef8836542.png

的贡献度(contribution)。

另外,贡献的拆解算法是根据组合方式不同决定,集合a409912380730384d2482262c34dc8e2c2ba1a.png组成c3331f981ef0d98f40a5266082fb5e4e8d227c.png的方式包括:

加法8792bd9294d5fa477ae4740efb285996369988.png(例,各渠道uv加和)。

乘法0220de574a1b129d98a987c2c2c1b393f0e21b.png(例,已知rpm=cpc*ctr下,算出cpc、ctr分别对rpm的贡献)。

比率型指标016b25c2252d6933c6f218a88ab952bcf1b58c.png(例,各广告计划的cpf, 或者各个渠道的cpuv等)。

三、贡献率的拆解方法

1. 加法拆解

已知22fc1bd742109c919b22861b9b6ef8de330126.png目标波动52082d563b14fb9637965829a74956a0ce2897.png贡献等于

d9a95b3230d3a08a50e096c56553afab5e4a76.png,证明见附录。

举例针对绝对值指标的维度拆解都是加法拆解。绝对量指标的同比/环比变化,就是各个分指标变化的加权求和,例如访问uv总和等于各渠道uv加总, 那么总uv的变化下钻贡献率等于各渠道分别的变化除以上个月的总uv数。

2. 乘法拆解

已知1255cd4227c93a7f73a32020d23a1cc18cd6bc.png目标波动b44824e79390579ac1d9939dd17c9c9e1252a3.png贡献等于

c96e48e404e7eaffd323203640fb82c459a07e.png证明见附录。

其中e25608779e88bb87c057559ad519b96b4513fe.png是当月的数据b2ee99e826b574731eb471243d526f3044b263.png,为上个月(同比/环比)的数据,f23b2170270c9f1bb8b9294c77105625175553.png

为平均对数权重:

b92b03c406e86998b715551dc0d748e75626ff.png

举例 漏斗模型,借助用户动线,拆解指标。

以全站商品详情页的浏览量(ipv)为例,其变动涉及流量、承接页到商品详情页的转化(uv-d转化)、商品详情页用户人均浏览量(人均pv),分别对应了用户增长、搜推场景承接以及私域用户活跃度等业务域或用户行为指标。借此对全站ipv的构成链路进行静态乘法拆解:

71018e22461000b97bb451e5fe04e46eb0d954.png

同时,我们可以计算各乘积因子对目标指标变化的贡献率78b2a89971d52356635587bb0f013e064dcb9c.png,衡量3个指标的重要性:

07798fd275918bbc569787fc3e16b99917b185.png

e3e5903465d95ba9ae7122cd72c0aa76fc9d6c.png是平均对数权重,

522b82e20392f3b5fdd179e7a2fa6a908c2175.png

3. 比率型指标拆解

已知923c534209c297a0a20728c371510dadf400b6.pngc6493627947b127ef8e828bbabdef32d06820d.png,592f4a306df7f45aaa27567a815678eafc2d92.jpg,c34f29d584b163b4d685637949e0be48595ac0.png当分析比率指标进行维度下钻,分项对整体的贡献,受两个因素影响。

分项的相对数指标波动贡献 ,即当期与基期的分项规模一致时,分项指标带来的变化:分项的指标波动贡献14d18457577b8acb8d2226dbbdc98445200272.png= 指标同比变化值 * 上期基数占比。

分项的结构变化 ,即当期与基期分项规模变化部分的指标变化:分项的结构变化

b35a26d80b22a05f176793ed74986e543c6188.png= 占比同比变化值 * (分项本期指标 - 整体上期指标 )。

f6ecc681247aae78aef2218685d6f05214c899.png, 其中f4b0cdd10a7b7773d594405cec17f759c2a863.png是当月的数据,f6d151b09ee792f9c9b7834a57adee4ae8e340.png为上个月(同比/环比)的数据。65c34f012f276149700224870f052c61401898.png952686512591cbf82fe907df7bd2c034f9a771.png, 证明见附录。

举例 以承接页到商品详情页的转化率(uv-d转化率rate)为例,1372fe084782475d6df468c2664e03e74f76c4.png,流量渠道可分为付费、免费、自然、其他,每种渠道的uv-d转化率为d347fb854f4cc835228550271d32b69cfae39f.png,各渠道的商详页访问人数(duv)占比用e927d66073ae92dd8cb275f8a2af9d9c0e4626.png表示,各渠道人数(uv)占比用95eff4b45126f81de93703de8dc0acf834bc3b.png,如果uv-d转化率同比下跌,我们想定位出哪个渠道出现了问题;各渠道的贡献0752a1700ea2e16ee8d80710a4da0284d2493c.png是怎么样计算为:

6414477163a8057ea2771086d4555693592510.png

4. 实例应用

根据上文提到的不同指标的计算方法,支持全类型指标下钻求贡献的场景, 可根据先验业务输入搭建多层的归因逻辑模型, 层层下钻,最终将指标波动定位。

288094481cddc476c052778a6da78e1f94f462.png

图二:计算贡献率之后的数据结果样式

以2011年某日ipv同比下跌的异动分析为例:

第一层拆解,借助用户动线,将存在异动变化的指标ipv构成链路进行乘法拆解,如下:

87ff88632fd798fac66018bafe9d46e3a7ec53.png

这里帮助我们定位到可能导致指标异动的关键节点,这有助于我们将问题定位到具体业务域,例如是uv的问题,转化的问题,还是人均ipv的问题?

第二层拆解,对关键节点处的多个维度进行下钻,将问题定位到某些维度的某些水平上,同时避免陷入辛普森悖论等陷阱,这有助于我们形成具体业务域有所行动, 例如如果是转化的问题,究竟是哪个渠道的转化减少了?

下图“异动分析拆解流程图”是根据先验的业务输入搭建的归因模型,根据其框架得以进行贡献率拆解与问题定位:

2316c4c752dcd8e8f09184f8afc33f38a32c9d.png

图三:指标拆解逐层归因

红色表示的链路指标或维度代表对总值下跌贡献率较大,经过一层一层的拆解定位到app端自然流量中转化的降低导致总转化下降。

基于流量跨端调控以及流量预算减投的业务背景,我们现将对ipv贡献最大的uv/duv根据端型、流量渠道类型、流量渠道、国家四个维度进行贡献率拆解。

在本实例中,通过本文对贡献率拆解方法与业务人工看数得到的问题定位基本一致,该方法可以实现异动贡献率量化与提效的目的,具体核心结论如下:

结论一 (第一层拆解)ipv下降主要影响因素是uv-d转化率的波动。

结论二 (第二层拆解)uv-d比率的波动主要由APP端与WAP端导致,两种端型贡献持平。

结论三 (第三/四层拆解)APP端的自然流量和wap端的付费流量是uv-d总比率波动的主要贡献维度。

结论四 (第五层拆解)APP端self-visit中美国对uv-d比率的波动贡献较大。

通过建立多层归因下钻维度模型, 用自动化的方式层层剥析,从而能尽求完善且正确的归因到某个维度,从而节省人力,提高准确和科学性。

四、多层下钻归因方案—决策树

本节重点在拆解求出贡献率之后,如何探查异动。我们已经把不同维度下,每个维值的贡献率求出, 下一步的目的是求出贡献最大(有异动的)的维度维值组合,测三种拆解方案,包括逐层下钻(同上文3.4的下钻方式)、多层同步下钻、 决策树模型,发现决策树模型效果最好。这里决策树输入为不同的维值组合,输出为贡献率,做的是回归预测。

主要做法是求贡献率的熵,找到信息增益最高切割方法。这里自然而然想到决策树模型,通过贪心算法,切割数据空间, 找到贡献率绝对值最高的维度组合空间。图四长方形整体表示数据空间,表示两个维度,其下角标表示维度下的维值。下图具象的看出通过不同维值的组合,把数据空间切割成不同块,用不同的颜色代表。

818ddd1995a8655b5f532069e7bcefbcee5b73.png

图四:决策树对数据空间的切割可视化

决策树存在过拟合的问题, 为了解决这个问题,我们决定了剪枝的方法,采用后剪枝(Post-pruning)。后剪枝就是先把整颗决策树构造完毕,然后自底向上的对非叶结点进行考察,若将该结点对应的子树换为叶结点能够带来泛华性能的提升,则把该子树替换为叶结点。

后剪枝的方法包括:REP-错误率降低剪枝, PEP-悲观剪枝, CCP-代价复杂度剪枝, MEP-最小错误剪枝。

我们借鉴了CCP—代价复杂度的方法。选择节点表面误差率增益值大的层级的非叶子节点,删除该非叶子节点的左右子节点,若有多个非叶子节点的表面误差率增益值相同小,则选择非叶子节点中子节点数最多的非叶子节点进行剪枝。这个算法的参数为

2907f7386d5070463ba4675910780e7eb64ba5.png, 表示算法的复杂度:819e24b9859ba0f56cf12477f781e305c4d0e2.png

其中,581eb0522f570f7bf71965843823c01d5a390c.png表示的是结点1468bf225c36132eba04095b574558e65265f1.png的方差(近似加权熵的概念:impurity,下文都泛称为熵,计算公式),475714d172c462a0c836471a4e6fda47c73d91.png是结点b31636d38084b2c486d384596e07bce5d8cb33.png的子树71026c5150fd379270678004b7c1d13883d333.png的熵的总和,02061d280a90703a5a1308bb98f725f550f3d7.png为决策树结点个数 。

f81eeec13e082208e7b612bcbd889277139b55.png高,表示结点b774a2922fec9f3c6cb319c0f80eef35ba45fd.png往下分的信息增益高。图五表示异动维数的个数与决策树层结点熵的平均数的关系:以黄线为例, 当异动的维数为2时,决策树在第二层的熵最高,从第二层往后,再往下分熵越小,信息增益少,过拟合明显。从折线明显看到,熵的拐点在第二层,决策树最大深度等于2。

e7d7a3d106c9d8cdb70339b02ab728c5a7ded7.png

图五:异动维数的个数与结点方差(熵)的关系

我们从图五的事例启发,按照CPP的方法, 找跃层增益较大的“拐点”,找到合适的

进行剪枝。

五、模型表现

1. 模拟数据

我们模拟的维度和维值如下,共4个维度(两两独立), 涉及维值共40个,4个维度维值组合(笛卡尔积 31*2*3*4=744)共744个。模拟的时间对比为月环比,模拟指标为广告消耗。

country_cn_name

is_free

terminal_type_cd

imps_cnt_bins

(-1.0, 0.0]

无异动数据:用白噪音c5da89e05e5fa0b44b8899e3e2917e248e4288.png模拟无异动的维度组合的时间序列,见图六:

558c188757733b3bc6f665ad1f1d9670b2f1c5.png

图六:无异动的时间序列

有异动数据:用随机游走的累积和来模拟异动,公式如下,见图七:

a2fbf2a44751890fd46238aee0e61949447ea3.png

b33f3b702a92e1bdf92891c9b42f21cca5b9c8.png

图七(a):有异动的时间序列1

2. 模型评估

在上图四个维度(国家、渠道、端型、曝光档位),指定特定的维度和维值在3月有异动,通过决策树模型,测试是否找到正确异动点。模拟case考虑的主要是可能存在异动的真实情况:

  • 某个PID数据录入异常,会影响单维度的异动(仅那个PID的数据)。
  • 某个渠道且某个端型的减投,会影响多个维度组合的异动。由于指标异动涉及的业务繁杂,不同团队在不同方向的优化,影响到不同的维值组合。

例一:异动维度在两处

异动维值组合:

a. 国家=伊拉克, 渠道=免费, 端型='WAP', 曝光档位=[5:100]

b. 国家=法国, 渠道=免费, 端型='PC', 曝光档位=[0:5]

将贡献度算出,数据输入决策树模型, 结果见图八,可以看出决策树精确的找到异动的数据(共精确找到7个维值,共8个), 且这两组标红数据对于异动的贡献绝对值最大。我们自定义树结构找父节点的方法,自动剪掉冗余分支,只截取重点枝干呈现。

e3f4e498369acc2d0ae182014a32920b3362be.jpg

图八:决策树结果呈现

特征重要性也符合预期:

919784937148f47bd635036e2191ec271a8d2b.png

例二:异动维度在一处,只异动一个维度在付费上

异动维值组合:a. 渠道=付费

通过剪枝,模型成功找到一维信息,避免提供太多噪音令用户混淆。

更多

表一包含更多维值组合案例, 以及模型表现,包括F1-score,模型输出的结果,和特征重要性。已探索11个案例,平均F1-score达到91.9%。

下面的数量是异动的维值个数:

| Positive Prediction | Negative PredictionPositive Class | True Positive (TP) 34 | False Negative (FN) 6Negative Class | False Positive (FP) 0 | True Negative (TN) 0

最后结果:

Precision = 34 / (34 + 0) = 100%Recall = 34 / (34 + 6) = 85% F-1 Score Overall = 91.9%

异动维值组合(label/y_true)

F1-Score

模型结果1:模型输出(结果可视化展现,自动剪掉冗余分支,只截取贡献高的枝干呈现)

模型结果2:特征重要性

APP ->贡献率为 0.58

APP: 0.790

法国 ->贡献率为 0.84 

法国 : 0.542;

付费 ->贡献率为 0.43 

付费 : 0.570;

法国&付费

法国 -> 付费 -> 贡献率为 0.81 

法国 : 1.988; 付费 : 1.019;

法国&APP

法国 -> APP -> 贡献率为 0.84 

法国 : 1.895;APP: 1.360

APP&付费

APP -> 付费 -> 贡献率为 0.41 

APP: 1.591付费 : 1.203;

APP&付费&法国

法国 -> APP -> 付费 ->贡献率为 0.88 

法国 : 1.944;APP: 1.374;付费 : 1.047;

APP&付费&法国&(5.0, 100.0]

法国 -> (5.0, 100.0] -> APP -> 付费 ->贡献率为 0.90 

法国 : 1.836;APP: 1.469;(5.0, 100.0]: 1.369;付费 : 1.302;

APP&付费&法国&(5.0, 100.0]orPC&免费&伊拉克

非伊拉克 -> 法国 -> (5.0, 100.0] ->贡献率为 0.14 伊拉克 -> PC -> 非付费 ->贡献率为 0.87 

伊拉克: 1.610;PC : 1.027;付费 : 0.772;法国 : 0.062;(5.0, 100.0]: 0.052;

APP&付费&法国orPC&免费&伊拉克&(5.0, 100.0]

非法国 -> 伊拉克 -> (5.0, 100.0] ->贡献率为 0.14 法国 -> APP -> 非免费 ->贡献率为 0.87

法国 : 1.559;APP: 1.101;免费 : 0.839;伊拉克: 0.064;(5.0, 100.0]: 0.058;PC : 0.000

APP&付费&法国orPC&免费&伊拉克&(5.0, 100.0]or美国&免费&APP

非美国-> 非法国-> 伊拉克-> (5.0, 100.0]->贡献率为 0.14 非美国-> 法国-> APP-> 付费->贡献率为 0.84 美国-> APP-> 非付费->贡献率为 0.84

APP : 1.218 美国 : 0.936 付费 : 0.907 法国 : 0.863 伊拉克 : 0.035 (5.0, 100.0]: 0.033 土耳其 : 0.000

但此方法论还是有其局限性的,主要在于归因变量(下钻维度)有限,大多数情况下是按照业务的理解和先验的经验来判断。本方法只能识别业务已经认可的拆解维度和链路定位,拆解到的指标或维度都是已知业务系统内的指标,诸如工程问题、宏观政策等因素难以识别,需要辅以定性分析。具体来说,我们看到pv下降,下意识要去从渠道下钻,主要原因是我们因为渠道作为变量,是和pv数有正向(或者因果)关系的。举个极端的例子,有可能是服务器的故障,导致全平台的pv下跌。这样的潜在变量,如果和常用下钻变量彼此相互独立的条件下,是无法通过此方法论探查得到的。我们后续的工作将重点放在对相互独立的指标和相关事件的角度做进一步更全面的因果推断算法研究。

七、技术产品化

我们工作中月报和周报中通常分析的方法与此类似,不同的是,因为人力有限,数据庞杂,往往下钻维度和层数局限,比率类型指标不知道如何下钻等等,导致科学性和严谨性很难保持。这套方法实现了自动化,保证计算的准确性,节省人日。我们将此技术沉淀在内部数据产品“象数”上。象数中心是ICBU数据驱动的基石产品,是集数据资产定义与管理、A/B实验、洞察分析于一体的数据平台。它提供的核心价值在于好找、敢用、持续保鲜的数据资产,大规模、可信的端到端实验能力,以及因果、异动等智能化的分析工具。

28b6d5d580dc64818e546339a4960f0c6a4e4e.png

证明 加法贡献算法

已知88090eb098bd5539a30940ea48c208a47b6152.png贡献等于86fefea9891f9167d8a56715d7d9b78e301d4b.png

624f0b2778a1fc492d50201ae28f9f2b29562b.png

证明 乘法贡献算法

已知e8d7634840849f0c1c71485642ccb5d9314141.png

贡献等于964c44015d681a186ca134592361dad85e2d7e.png,目标波动

65e87af7419fe06abd8586a55ec7f85dffe5ee.png

989240741b040849f722997401c19e0f7d5ab1.png

证明 比率贡献算法

已知f27721937569477ffbd70232a1de5001233026.jpg

c443785465509603405672f7136d0f129d3321.png, 其中a5184c648d2ffd776f0295bb6d25e83128a2d3.png是当月的数据,34cba99925f9051d091748cad5484e434bcc1f.png为上个月(同比/环比)的数据。c710f4868a1c38806bd58100995fc0746c8927.png贡献等于268e8f529e0ed5cf42268771d73c39a96b0e32.png

算法得到的贡献率依旧相互独立,符合MECE原则,且通过分别观测06dea002382bd9af3315227159b41a60bb0bc7.png43058903002b44f14db1147e94768854461afa.png

有助于我们避开辛普森悖论带来的陷阱。

661e7c7666496b1c46f166e659319c39eba39a.png

备注:e3769c4514803a82552826faee43d35f341415.png符合mece原则证明:相互独立:f4f088407244ae9a8e6268624cf123f3126a14.png032c86466b0a522affe3228876233a84853fbc.png的计算公式中不涉及其他分项的完全穷尽。

Ang, Beng W., F. Q. Zhang, and Ki-Hong Choi. "Factorizing changes in energy and environmental indicators through decomposition." Energy 23.6 (1998): 489-495.

Ang B W . The LMDI approach to decomposition analysis: a practical guide[J]. Energy Policy, 2005, 33(7):867-871.

《波动解读—指标拆解的加减乘除双因素》https://zhuanlan.zhihu.com/p/412117828


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK