归因分析指南v1.0

2024-08-05 19:28:46

归因是一个跨领域的方法，在数据分析、深度学习、广告营销、心理学、投资都有相关的理论研究。趁周末时间，完成了归因指南的第一个版本（以后还会不断迭代的），分享给大家。

- 什么是归因 attribution

汉语上理解，指的是观察者对他人的行为过程或自己的行为过程所进行的因果解释和推论。归因——因果解释和推论。

attribution

psychology : the interpretive process by which people make judgments about the causes of their own behavior and the behavior of others

归因最早源于心理学：人们对自己的行为起因和他人的行为进行推断的解释过程。

归因分析是一种可以跨领域使用的方法（技术），能帮助我们看清影响结果的关键因素，从而不会轻易被表象所迷惑。从心理学到消费者行为，再到人力资源管理、绩效评估和团队领导力，基金股票投资决策，甚至延伸到互联网广告的效果优化（计算广告）。

- 边界与误区

现实中的因果关系是复杂、难于预测的，比如天气、股票市场、一场疫情的传播，往往在一定时段里是难于预测的，著名的理论蝴蝶效应就解释了这种混沌现象：一个微小的变化能影响事物的发展，这就是为什么天气或者是股票市场会有崩盘和不可预测的自然灾害。

人类的思维往往具有将事情复杂化的倾向，大家在讨论的时候，是不是有同感，我们的思维可以随时地漫无边界地发散，而远离议题本身。这里分享下查理·芒格的见解：我热衷于把事情简单化，如果事情太麻烦了，我就跳过去换一个。而巴菲特也有类似的说法：失败的原因是因为我们拥有了那些伟大和复杂的系统，但我们要做的仅仅是回归简单。

把问题简单化，往往能用几句话简单描述的就是最佳答案。

理想的归因（这里引用宋星在数字营销的一些观点）指的是全面归因，希望能够穷尽这些所有对人决定购买施加的所有外部因素。这里包括了线上、线下，还有我们预想不到的其他因素（梦境之类的）。明显，目前技术手段是做不到的。

退一步，全面归因做不到，那么，线上全面归因，全是数字化，能否实现呢？

现实状态下的归因，是指我们忽略那些不可能去了解的外部影响因素，而只看那些我们能掌握的因素。基于此，就有了线上全域归因、线上局部归因。

线上局部归因，我们目前的技术手段所实现的基本都是指的是线上的局部归因，是忽略了我们所不能掌握的因素的一种归因分析手段。

- 数字营销领域的归因

在数字营销领域，一般我们会称为营销归因模型，共有六种常见的归因模型：首次互动、最后一次互动、最后一次非直接点击、线性、时间衰减和基于位置。

每种分析模型都有其优缺点。通过分析每个归因模型，我们可以更好地了解每个营销渠道的投资回报率。不一定有“最佳”归因模型，但我们可以选择一种作为报告和分析的主要归因模型。

- 最终互动归因

这是大多数平台（Google Analytics）中的默认归因模型。最终互动归因(最终点击)，此模型会将100％的功劳归功于您的企业与潜在客户进行转化之前的最后一次互动。

优点，最终互动归因是最简单的实施和评估方法，通常也是最准确的。用户可以从多个设备访问，清除Cookie或使用多个浏览器，这使得跟踪他们的整个旅程变得困难，但是，我们始终可以在用户转换之前确定它们的最后一次交互。

缺点是该模型忽略了最终交互之前发生的所有事情。如果您的购买周期短，则此模型可能非常适合您。如果转换前接触点不多，则仅跟踪最后一个接触点就可以使您对最有效的渠道有所了解。

- 首次互动模型

首次互动与最终互动类似，因为它为一次点击/互动提供了100％的功劳。首次互动（首次点击）将所有功劳归功于与客户的首次互动。例如，如果用户首先在Pinterest上找到您的业务，则Pinterest会获得互动后发生的任何销售的所有功劳；如果客户在Pinterest上找到您，然后在一周后点击展示广告，然后直接转到您的网站，这个功劳都是Pinterest的。

- 最终非直接点击

最终非直接点击模型比标准的最终点击模型更有帮助。最终非直接点击仍然将100％的值分配给单个互动。直接访问是指任何人通过手动输入您的网址或单击添加了书签的链接直接进入您的网站。

- 线性归因

使用线性归因模型，将功劳平均分配给客户与企业之间的所有互动。例如，客户在Instagram上找到您，订阅您的电子邮件，然后单击了电子邮件里的链接。过了一周他们直接前往您的网站并消费了$ 120。在这种情况下有3个接触点。每个接触点可获得33％的功劳。

线性归因对所有事物都给予同等的重视。该模型不会突出显示最有效的策略。如果您想要一个简单明了的归因模型，并且可以轻松地向客户解释，那么线性归因可能是您的理想选择。

- 时间衰减归因

顾名思义，时间衰减归因考虑了时间维度的因素，第一次互动获得的功劳较少，而最后一次互动获得的功劳最大。当您要处理特别长的销售周期时，您可能需要使用时间衰减归因模型。

- 基于排名的归因

基于排名的归因模型（U形归因）在潜在客户与您的品牌的首次互动以及转化为潜在客户的两点各分配40％的功劳，其余20％则分布在中间发生的任何其他交互作用之间。

例如，如果潜在客户首先通过Google搜索与您的公司联系，查看您的Facebook页面，然后注册您的电子邮件时事通讯，则第一次（google）和第三次接触（电子邮件）都会获得40％的功劳，而Facebook访问会获得剩下的20％。

- 自定义归因模型

通过给你认为的最重要的任何接触点赋予自定义权重的一种归因模型。

- 投资决策领域的归因分析

归因分析，一种评估工具，用于根据特定基准来解释和分析投资组合的绩效。它用于识别公司或基金经理积极投资决策的超额收益来源。

基准决定归因分析的结果，核心思路：将特定投资组合产生的回报与已进行基准评估的投资回报进行比较。

- 分配影响

指通过将投资组合权重分配给特定的细分市场而产生的收益。比如，投资组合A，分配给IT行业20％，分配给房地产行业50％，分配给零售行业30％。比较的时候，是将分配权重与基准投资组合进行比较：

A(20%,50%,30%)

Baseline(15%,45%,45%)

Ps：本文baseline的设定仅为了解释清楚概念本身而假设的。

如果投资组合的行业高于基准水平，则被视为超重

如果投资组合的行业权重低于基准，则被视为减持

理想情况下，投资决策者的目标是将较高的权重放在表现良好的行业（即，对该行业加重），而将较低的权重放在那些投资不良的行业（即，对该行业进行低估）。

此影响，考察的是如何分配权重。

- 选择影响

指选择一个细分市场中的特定股票对投资组合总回报的影响。

当来自特定细分市场的投资组合收益大于来自同一细分市场的基准收益时，就会产生正选择效应。

当来自特定细分市场的投资组合收益低于来自同一细分市场的基准收益时，就会产生负选择效应。

此影响，评估个体对整体的决定性影响有多大。

- 相互作用影响

把分配和选择综合起来，就是相互作用影响，由于相互作用影响是分配和选择的数学结果，而不是主动做出的投资决策，因此不容易归因于相互作用影响。

此影响，有点像1+1>2的情况，不容易把为什么大于2的影响因素归因到某个1。

我们进一步抽象下：

我们把行业记为H，

投资组合记为A，

权重记为w，

分配效果记为A（w1 * H1，w2 * H2，w3 * H3）

基准记为H1base，Abase

分配影响记为Ea

选择影响记为Es

相互作用影响记为Ei

Ea比较的是：

W1,w2,w3

W1base,w2base,w3base

Es比较的是:

H1/H1base

Ei比较的是:

Ei=wa*Ea + ws*Es

wa跟ws的权重大小。

- 用于解释深度学习模型的归因

Axiomatic Attribution for Deep Networks

归因也用于分析深度学习模型所学习到的特征，对于预测结果的贡献度。上图是用于分析一个翻译模型，单词对于输入输出的贡献程度。

上图是用于文本分类模型的归因分析，我们可以直观地了解到模型所学习到的、对于分类有关键作用的单词。

- 产品案例

Adobe Analytics

这不仅是归因，而是一场洞察革命。

It’s not just attribution.
It’s an insight revolution.

通过归因，您可以了解整个客户旅程中不同的互动如何影响转化。传统归因归因于特定事件和任意事件，而最佳归因则使用机器学习和高级统计模型来了解每次触摸的精确影响。

- 功能1 营销归因

Marketing Attribution

多种基于规则和算法的归因方法可对客户行为进行可靠的分析，并根据客户的实际互动模式为每个渠道提供最合适的模型。

1 多种归因模型，每种模型有其假设及适用的场景；

2 合理地根据具体业务选择适合的归因模型；

Mix, match, or compare attribution models in your analysis

3 可视化的重要性

可视化图表的选择代表了所想要展示的规律，往往图就是结论。

- 功能2 预测分析

Predictive analytics.

Predicting the future is what data was made for.

数据的存在价值就是为了预测未来。

当我们收集了大量的客户数据，但是在许多情况下，我们并没有充分利用这一切收集而来的数据，因为我们依赖从手动挖掘到的很小比例的见解。

预测分析旨在帮助我们挖掘尚未开发的数据潜力。这些数据中隐藏着一些模式，这些模式可以揭示有意义的客户见解。预测功能依靠机器学习和高级统计模型来自动挖掘大量数据，以寻找大多数分析师根本没有时间寻找的那些模式。

- 什么是洞察？

Insight

我们首先需要发现有趣的模式interesting patterns，如何定义有趣？如下图所示，数据的趋势不稳定，就代表是有趣的：

为了把Insight自动挖掘出来，需要把所有可能的有趣模式分类出来，有趣的模式包括12种：Attribution贡献、Outstanding No. 1 第一名、Outstanding Top 2 第二名、Outstanding Last 最后一位、Evenness 均匀度、Change Point 转折点、Outlier 离群值、Seasonality 季节性、Trend 趋势、2D Clustering 聚类、Correlation 相关性、Cross-Measure Correlation 交叉测量相关。

可以分成3类，单点洞察、单形状洞察、复合洞察。

结合图表，我们看几个示例：

Outstanding No. 1

Outstanding Last

Attribution

Evenness

Change Point

Outlier

Trend

Seasonality

Correlation

Cross-Measure Correlation

2D Clustering

当把洞察的种类罗列完之后，就可以尝试使用机器学习来自动发现各种有价值的洞察啦~

- 产品案例

Amazon Attribution

亚马逊为品牌和零售商推出的工具。该工具将帮助卖家了解亚马逊产品流量从何而来，从而更好地调整自己的营销策略。

Measure度量，卖家可以通过Amazon Attribution对各个广告渠道进行分析，来了解广告渠道的有效性。

Optimize优化，卖家可以根据自己的需求，通过Amazon Attribution报告的各个广告渠道的有效性来进行不断地优化（in-flight optimization）。

Plan计划，卖家可以通过Amazon Attribution查看各广告渠道的有效性和洞察相关的亚马逊细分受众群，来规划未来的营销策略。

度量-优化-计划，这是一个产品的最小闭环。

- 算法归因

也称为数据驱动归因，英文是Data-Driven Attribution，简称DDA。Google于2013年推出了Google Analytics Premium的数据驱动归因模型，并于2014年在AdWords中发布了该模型。

数据驱动归因是一种基于机器学习的归因模型，与基于规则的归因模型不同，数据驱动归因使用所有可用的路径数据，包括路径长度，曝光顺序和广告素材，来了解特定营销接触点的存在如何影响用户转化的可能性以更好地将功劳分配给任何接触点。

算法归因本质上是一个分类问题，理论上能用于分类的算法都可以用于算法归因的。常用的算法有马尔科夫链、沙普利值、生存分析和Harsanyi Dividend。

谷歌系的产品用的是基于Shapley值，如Google Attribution 360，Google Analytics 360，DoubleClick和AdWords。算法归因相比基础的模型如First Touch，Last Touch，Linear等有着优势，算法归因考虑到了更多渠道间的互动。

- 辛普森悖论VS归因分析

Simpson's paradox

当人们尝试探究两种变量（比如新生录取率与性别）是否具有相关性的时候，会分别对之进行分组研究。然而，在分组比较中都占优势的一方，在总评中有时反而是失势的一方。

简单来说，同一组数据，整体的趋势和分组后的趋势完全不同。从统计学家的观点来看，出现辛普森悖论的原因是因为这些数据中潜藏着一个魔鬼——潜在变量lurking variable。

最著名的辛普森悖论的实例，就是1973年加利福尼亚大学伯克利分校性别歧视案的例子。如果只看整体录取率，那么男生的录取率是44%，女生的是35%。而如果拆开来看，在6个院系的4个里，女生的录取率大于男生。如果按照这样的分类，女生实际上比男生的录取率还高一点点。在这个案例中，辛普森悖论出现的原因是，女生更愿意申请那些竞争压力很大的院系（比如英语系），但是男生却更愿意申请那些相对容易进的院系（比如工程学系）。这不就是归因所要挖掘的洞见吗？

不少统计学家认为，辛普森悖论的存在，提醒我们不可能光用统计数字来推导准确的因果关系。因为数据可以用各种各样的方式分类，然后再进行比较，所以理论上潜在变量无穷无尽，你总是可以用某个潜在变量得到某种结论。

我们能做的，就是仔细地研究分析各种影响因素，把各种分类方式（不同模型）对比研究分析。

以上为全文，总结下：

归因是描述因果关系的一种分析方法，我们需要明确影响因素，在影响因素的范围下进行归因分析。

各个领域的应用，需要结合业务具体的情况，设定一些基本的假设，例如数字营销有点击归因等模型，投资决策有分配、选择、相互作用的模型。

产品上，不仅仅是归因，还要解决洞察问题。洞察实际上就是有趣的结论，我们可以使用机器学习自动挖掘到有趣的结论（结合洞察分类）

产品最小闭环：度量-优化-计划。

归因除了基于规则的实现，还有机器学习的实现方式，称为算法归因。

归因也可以从辛普森悖论里获得结论。

参考文献：

https://agencyanalytics.com/blog/marketing-attribution-models

https://zhuanlan.zhihu.com/p/90165817

https://arxiv.org/pdf/1703.01365.pdf

https://www.microsoft.com/en-us/research/uploads/prod/2016/12/Insight-Types-Specification.pdf

https://www.microsoft.com/en-us/research/uploads/prod/2019/05/QuickInsights-camera-ready-final.pdf

相关链接、更多资料查阅

⤵️️

「 Mix+人工智能 」专刊

每期由mixlab社区精选。收录人工智能的相关内容，包括AI产品、AI技术、AI场景、AI投资事件、AI的思维方式等，MIX的主题包括：AR、VR、计算设计、计算广告、智能设计、智能写作、虚拟偶像等。

智能时代，人与人之间的差距，体现在AI使用能力上

To Be Continued

……

百度AI：深海巨舰加速史

撰文\ 蓝山编辑\ 吴不知 [图片来源于网络] 这是银杏财经第342篇原创文章当我们提及"人工智能"时,到底在谈论些什么? 是1956年的夏天,达特茅斯种下了"用人工 ...
【AI初识境】给深度学习新手做项目的10个建议

这是专栏<AI初识境>的第12篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 在成为合格的深度学习算法工程师,尤其是工业界能够实战的调参选手之前,总会踏足很多的坑. 今 ...
概述：各学科和各种任务的最新机器学习算法

了解NLP,计算机视觉,语音识别和推荐系统的最佳算法 CV Computer Vision, NLP Natural Language Processing, RS Recommender Syste ...
“深度智能”时代到来行业共话AI安全与产业治理

来源:环球网作为引领第四次科技革命的战略性技术,人工智能给社会建设和经济发展带来了重大而深远的影响,但数据隐私.算法偏见.技术滥用等安全问题也正给社会公共治理与产业智能化转型带来挑战.未来人工智能如 ...
“留量思维”下，如何让客户主动加入品牌私域流量池？

零售行业品类众多,用户需求量大,且大部分品类复购率高,因此对于流量积累和运营的需求,较其他行业更为迫切.无论是前几年的公域流量,还是近年来呼声愈高的私域流量,零售行业都是先行者.粗放割裂的运营方式已然 ...
斯图飞腾Stratifyd荣登2020大数据产业创新服务产品榜单

近日,由大数据领域垂直专业媒体数据猿发起的「金猿奖」年度榜单揭晓,斯图飞腾(Stratifyd Inc)凭借突出的技术能力和在数据驱动智能决策领域的领先应用在众多参评产品中脱颖而出,荣膺"2 ...
《轻创业/副业/自由职业之：项目选择，思路指南 V1.0》

四十多岁,碌碌无为, 心有不甘,跑去算命. 掐指一算,两个消息: "一好一坏,先听哪个?" 先听坏的! 先生开口: "坏消息是,四十之前,穷困潦倒." 此人忙问 ...
工地萌新自救指南V1.0

转眼入职新单位10天了,中午午休时突然想到该回顾总结下这10天的萌新体验,思考了下就敲定一个主题:加入新单位的自救指南. 正好这个时候也是不少应届生参加完企业培训开始正式上岗的日子,希望也能给大家点思 ...
人工智能硬件 | 神经形态芯片指南v1.0

据预测到2025年,全球人工智能硬件销售额将达1150亿美元. 早在20世纪70年代以来,人们就已经设想出,将人类大脑的功能映射到硬件上,就是直接用硬件"模拟"人类大脑的结构.这种 ...
人工智能美学算法美学指南v1.0

智能是人类的思维能力,科学家将人类思维分成三种: 抽象/逻辑思维形象/直感思维灵感/顿悟思维逻辑思维是目前人工智能实现效果最好的思维方式,一般我们把此类也称为计算思维,人工智能在计算能力.精准程 ...
人工智能写作指南v1.0

这是一篇「人机协作」的文章, 初稿由darksee.ai「智能写手」生成, darksee.ai阅读了全网数据. 欢迎在MixLab讨论相关内容.技术实现, MixLab是一所面向未来的实验室 def ...
人工智能设计师-指南-v1.0

人工智能设计师养成记 9 Steps ↓ 阅读难度:★☆☆☆☆ 技能要求:机器学习.设计.计算机基础字数:2250字阅读时长:10分钟如果你想成为人工智能设计师,我相信以下9个要点可以帮你GET ...
力场分析指南

Kurt Lewin(1951)开发的"力场分析(FFA)"被广泛用于决策制定,尤其是在组织中计划和实施变更管理计划时.这是一种获得有关潜在组织变革问题的不同力量的全面概述,并评估 ...
计算机中丢失api-ms-win-crt-runtime-l1-1-0.dll的修复方案 v1.0 官方版

迅雷云盘下载链接 https://pan.xunlei.com/s/VMSreN7sF0drG9vkqtq6yVkrA1?path=%2F 在我们打开某软件,或者安装某个游戏的时候,经常会遇到这个 ...
我的投资体系V1.0

关注公众号:小鱼量化公号ID:xiaoyulianghua 前言近几年来家庭可投资资产大部分都放在了指数基金上,有动力去研究投资形成自己的投资体系,准备了有大半年的时间,最近两个月开 ...

归因分析指南v1.0

Marketing Attribution

相关推荐