一、归因分析" target="_blank">什么是归因分析？

在复杂的数据时代，我们每天都会面临产生产生的大量的数据以及用户复杂的消费行为路径，特别是在互联网广告行业，在广告投放的效果评估上，往往会产生一系列的问题：

· 哪些营销渠道促成了销售？
· 他们的贡献率分别是多少？
· 而这些贡献的背后，是源自于怎样的用户行为路径而产生的？
· 如何使用归因分析得到的结论，指导我们选择转化率更高的渠道组合？

归因分析(Attribution Analysis)要解决的问题就是广告效果的产生，其功劳应该如何合理的分配给哪些渠道。

你可能第一反应就是：当然是我点了哪个广告，然后进去商品详情页产生了购买以后，这个功劳就全部归功于这个广告呀！没有错，这也是当今最流行的分析方法，最简单粗暴的单渠道归因模型------这种方法通常将销售转化归功于消费者第一次(首次互动模型，First Model)或者最后一次接触(末次互动模型，Last Model)的渠道。但是显然，这是一个不够严谨和准确的分析方法。

举个例子：
小陈同学在手机上看到了朋友圈广告发布了最新的苹果手机，午休的时候刷抖音看到了有网红在评测最新的苹果手机，下班在地铁上刷朋友圈的时候发现已经有小伙伴收到手机在晒图了，于是喝了一杯江小白壮壮胆回家跟老婆申请经费，最后老婆批准了让他去京东买，有保障。那么请问，朋友圈广告、抖音、好友朋友圈、京东各个渠道对这次成交分别贡献了多少价值？-----太难了，笔者也不知道

我们发现，现实情况往往是很复杂的多渠道投放，在衡量其贡献价值以及做组合渠道投放力度的分配时，只依靠单渠道归因分析得到的结果和指导是不科学的，于是引入了多渠道归因分析的方法。当然，多渠道归因分析也不是万能的，使用怎样的分析模型最终还是取决于业务本身的特性以及考虑投入其中的成本。

二、几种常见的归因模型

1、末次互动模型

也称，最后点击模型-----最后一次互动的渠道获得100%的功劳，这是最简单、直接，也是应用最为广泛的归因模型。

什么是归因分析？

优点：首先它是最容易测量的归因模型，在分析计方面不容易发生错误。另外由于大部分追踪的cookie存活期只有30-90天（淘宝广告的计算周期最长只有15天)，对于顾客的行为路径、周期比较长的场景，在做归因分析的时候可能就会发生数据的丢失，而对于末次互动模型，这个数据跟踪周期就不是那么特别重要了。

弊端：这种模型的弊端也是比较明显，比如客户是从收藏夹进入商品详情页然后形成了成交的，按照末次归因模型就会把100%的功劳都归功于收藏夹（直接流量）。但是真实的用户行为路径更接近于产生兴趣、信任、购买意向、信息对比等各种环节，这些都是其他渠道的功劳，在这个模型中则无法统计进来，而末次渠道的功劳评估会被大幅高估。

适用于：转化路径少、周期短的业务，或者就是起临门一脚作用的广告，为了吸引客户购买，点击直接落地到商品详情页。

2、末次非直接点击互动模型

上面讲到的末次互动模型的弊端是数据分析的准确性受到了大量的'直接流量'所误导，所以对于末次非直接点击模型，在排除掉直接流量后会得到稍微准确一点的分析结果。

在营销分析里，直接流量通常被定义为手动输入URL的访客流量。然而，现实是市场上的所有分析工具都把没有来源页的流量视为直接流量。比如：文章里没有加跟踪代码的链接、用户直接复制粘贴URL访问等等

从上面的案例中，我们可以想象，用户是从淘宝收藏夹里点了一个商品然后进行了购买，但是实际上他可能是点了淘宝直通车后把这个商品加入到收藏夹的，那么在末次非直接点击互动模型里，我们就可以把这个功劳归功于淘宝直通车。

适用于：如果你的公司认为，你们业务的直接流量大部分都被来自于被其他渠道吸引的客户，需要排除掉直接流量，那么这种模型会很适合你们。

3、末次渠道互动模型

末次渠道互动模型会将100%的功劳归于客户在转化前，最后一次点击的广告渠道。需要注意这里的'末次互动'是指任何你要测量的转化目标之前的最后一次互动，转化目标可能是销售线索、销售机会建立或者其他你可以自定义的目标。

优点：这种模式的优点是通常跟各渠道的标准一致，如Facebook Insight使用末次Facebook互动模型，谷歌广告分析用的是末次谷歌广告互动模型等等。

弊端：很明显当你在多渠道同时投放的时候，会发生一个客户在第一天点了Facebook的广告，然后在第二天又点击了谷歌广告，最后并发生了转化，那么在末次渠道模型中，Facebook和谷歌都会把这次转化的100%功劳分别归到自己的渠道上。这就导致各个部门的数据都看起来挺好的，各个渠道都高估了自己影响力，而实际效果则可能是折半，如果单独使用这些归因模型并且把他们整合到一个报告中，你可能会得到'翻倍甚至三倍'的转化数据。

适用于：单一渠道，或者已知某个渠道的价值特别大

4、首次互动模型

首次互动的渠道获得100%的功劳。

如果，末次互动是认为，不管你之前有多少次互动，没有最后一次就没有成交。那么首次互动就是认为，没有我第一次的互动，你们剩下的渠道连互动都不会产生。

换句话说，首次互动模型更加强调的是驱动用户认知的、位于转化漏斗最顶端的渠道。

优点：是一种容易实施的单触点模型

弊端：受限于数据跟踪周期，对于用户路径长、周期长的用户行为可能无法采集真正的首次互动。

适用于：这种模型适用于没什么品牌知名度的公司，关注能给他们带来客户的最初的渠道，对于扩展市场很有帮助的渠道。

5、线性归因模型

对于路径上所有的渠道，平等地分配他们的贡献权重。

什么是归因分析？

线性归因是多触点归因模型中的一种，也是最简单的一种，他将功劳平均分配给用户路径中的每一个触点。

优点：他是一个多触点归因模型，可以将功劳划分给转化漏斗中每个不同阶段的营销渠道。另外，他的计算方法比较简单，计算过程中的价值系数调整也比较方便。

弊端：很明显，线性平均划分的方法不适用于某些渠道价值特别突出的业务。比如，一个客户在线下某处看到了你的广告，然后回家再用百度搜索，连续三天都通过百度进入了官网（真实用户场景也许就是用户懒得记录或者收藏官网地址），并在第四天成交。那么按照线性归因模型，百度会分配到75%的权重，而线下某处的广告得到了25%的权重，这很显然并没有给到线下广告足够的权重。

适用于：根据线性归因模型的特点，他更适用于企业期望在整个销售周期内保持与客户的联系，并维持品牌认知度的公司。在这种情况下，各个渠道在客户的考虑过程中，都起到相同的促进作用。

6、时间衰减归因模型

对于路径上的渠道，距离转化的时间越短的渠道，可以获得越多的功劳权重。

什么是归因分析？

时间衰减归因模型基于一种假设，他认为触点越接近转化，对转化的影响力就越大。这种模型基于一个指数衰减的概念，一般默认周期是7天。也就是说，以转化当天相比，转化前7天的渠道，能分配50%权重，前14天的渠道分25%的权重，以此类推...

优点：相比线性归因模型的平均分权重的方式，时间衰减模型让不同渠道得到了不同的权重分配，当然前提是基于'触点离转化越近，对转化影响力就越大'的前提是准确的情况下，这种模型是相对较合理的。

弊端：这种假设的问题就是，在漏洞顶部的营销渠道永远不会得到一个公平的分数，因为它们总是距离转化最远的那个。

适用于：客户决策周期短、销售周期短的情况。比如，做短期的促销，就打了两天的广告，那么这两天的广告理应获得较高的权重。

7、基于位置的归因模型（U型归因）

基于位置的归因模型，也叫U型归因模型，它其实是混合使用了首次互动归因和末次互动归因的结果。

什么是归因分析？

U型归因模型也是一种多触点归因模型，实质上是一种重视最初带来线索和最终促成成交渠道的模型，一般它会给首次和末次互动渠道各分配40%的权重，给中间的渠道分配20%的权重，也可以根据实际情况来调整这里的比例。

U型归因模型非常适合那些十分重视线索来源和促成销售渠道的公司。该模型的缺点则是它不会考虑线索转化之后的触点的营销效果，而这也使得它成为销售线索报告或者只有销售线索阶段目标的营销组织的理想归因模型。

8、马尔科夫链

马尔科夫链模型来自于数学家Andrew Markov所定义的一种特殊的有序列。马尔科夫链(Markov Chain)，描述了一种状态序列，其每个状态值取决于前面有限个状态。马尔科夫链是具有马尔科夫性质的随机变量的一个数列。

马尔科夫链思时间、状态都是离散的马尔科夫过程，是将来发生的事情，和过去的经历没有任何关系（只和当前有关系）。通俗的讲：今天的事情只取决于昨天，而明天的事情只取决于今天。

谷歌的PageRank，就是利用了马尔科夫模型。假设有A,B,C三个网页，A链向B，B链上C。那么C分到的PR权重只由B决定，和A没有任何关系。如果互联网上所有的网页不断地重复计算PR，很容易可以想到这个PR值最后会收敛，并且区域一个稳定的值，这也就是为什么它会被谷歌用来确定网页等级。

回到归因模型上，马尔科夫链模型实质就是：访客下一次访问某个渠道的概率，取决于这次访问的渠道。

归因模型的选择，很大程度上决定转化率计算结果，像前面讲的首次互动、末次互动等模型，实际上需要人工来分配规则的算法，显然它并不是一种“智能化”的模型选择。而且因为各个推广渠道的属性和目的不同，我们也无法脱离用户整个的转化路径来单独进行计算。因此，马尔科夫链归因模型实质上是一种以数据驱动的(Data-Driven)、更准确的归因算法。

马尔科夫链归因模型适用于渠道多、数量大、有建模分析能力的公司。

那么具体马尔科夫链怎么玩？（请自备图论知识）

如果将各推广渠道视为系统状态，推广渠道之间的转化视为系统状态之间的转化，可以用马尔科夫链表示用户转化路径。

马尔科夫链表示系统在t+1时间的状态只与系统在t时间的状态有关系，与系统在t-1,t-2,...,t0时间的状态无关，平稳马尔科夫链的转化矩阵可以用最大似然估计，也就是统计各状态之间的转化概率计算得到。用马尔科夫链图定义渠道推广归因模型：

1、状态集合，定义为 banner,text,keyword,link,video,mobile,unknown 7种推广类型加上start,null,conversion 3种系统状态
2、稳定状态下的转化矩阵，通过某公司web网站20天的原始click数据计算的得到如下状态转化矩阵

什么是归因分析？

3、利用该转化矩阵来构造有向图（Directed Graph），通过计算从节点start到节点conversion的所有非重复路径（Simple Path）的累乘权重系数之和来计算移除效应系数

4、通过移除效应系数，计算各个状态的转化贡献值

什么是移除效应？

渠道的移除效应定义为：移除该状态之后，在start状态开始到conversion状态之间所有路径上概率之和的变化值。通过计算各个渠道的移除效应系数，根据移除效应系数在总的系数之和之中的比例得到渠道贡献值。移除效应实际上反映的是移除该渠道之后系统整体转化率的下降程度。

三、如何选择归因模型

从上面这么多种归因模型来看，我们大概可以把他们分成2类：

（1）基于规则的：预先为渠道设置了固定的权重值，他的好处是计算简单、数据容易合并、渠道之间互不影响，当然你也可以根据实际需要去调整他们的权重配比

（2）基于算法的：每个渠道的权重值不一样，会根据算法和时间，不同渠道的权重值会发生变化（数据驱动）

在选择用何种归因模型之前，我们应该先想清楚业务模式！

如果是新品牌、新产品推广，企业应该给予能给我们带来更多新用户的渠道足够的权重，那么我们应该选择首次互动模型；

如果是投放了单一的竞价渠道，那么我们应该选取末次互动归因模型或者渠道互动归因模型；

如果公司很在乎线索来源和促成销售渠道，那么我们应该选择U型归因模型；

如果公司的渠道多、数据量大，并且由永久用户标识，基于算法的归因模型能够为营销分析提供巨大的帮助；

总的来说，没有完美的归因模型。任何模型都存在他的局限性和不足，如何有效地结合客观数据与主观推测，是用好归因模型的重要能力前提。

本文系作者：赵同学授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

什么是归因分析？

一、归因分析" target="_blank">什么是归因分析？

二、几种常见的归因模型

1、末次互动模型

2、末次非直接点击互动模型

3、末次渠道互动模型

4、首次互动模型

5、线性归因模型

6、时间衰减归因模型

7、基于位置的归因模型（U型归因）

8、马尔科夫链

Recommend

霸气字体设计教程：封神！（文末含教程素材）

Constant Azure Improvement

为何 iOS 拼多多异常流畅

Bill Gates Urges Investing in Faster Development for Life-Saving Drugs

GitHub - crossbeam-rs/crossbeam: Tools for concurrent programming in Rust

苹果自研芯片开枝散叶四种M2芯片和九款Mac开发中

DependenTree, Graph Visualization Library

'Which videogames do you play?' How firms are finding and keeping scarce tech ta...

12 UI Design Trends for Web and Mobile We Started 2022 With

从趋势到必选项，探讨企业数字化转型方式方法

About Joyk