什么是见解、如何实现算法见解?| Mixlab智能可视化系列
人群迁徙的可视化,图自google
用户向机器下达指令,
机器根据分析场景和上下文推测人类分析的目的,
自动理解、智能分析并主动用可视化的方式呈现给用户。
- 人机协同
服装产品的销售量是多少?
当你在 Excel 中输入这个问题,Excel 将立即“意会”,把“服装”分类下不同产品的销售量数据,以可视化图表的方式呈现在你眼前。
在新技术落地过程中,必须处理好技术与产品之间的关系。
具体包括:
站在用户和产品的角度思考,保证目标用户最常见的查询需求都能够得到满足。 产品对技术的准确率有着极高的要求,当用户问一个问题,机器自动给出的回答必须有很高的准确率,否则会误导用户的决策,带来极大的损失。 定义技术在产品中的边界,并让用户理解它的适用范围。
回到本文的重点:算法见解
本文通过研究Power BI Desktop的insight功能,回答了什么是见解、算法见解如何实现等问题。
举一个UI设计上的例子
如果我们表述为:增加社交计数可将转化率提高,这一观点,其实算不上insight。因为没有上升到规律的层面。
我们换一个角度描述:由于羊群效应,在我们的心理深处,其他人的行为具有自然的吸引力,所以增加社交计数可将转化率提高。
这一描述就显得insight,因为有抽象的部分(羊群效应),可以解释很多场景(不仅仅是UI)。
再举一个 ThinkTwice2 写的什么是insight 的例子
曾经有组音频节目体验的调研发现,有的人会在开车的时候听一些自己喜欢的节目,而有的在周末整理家务时,把音频节目设置好,一边干活一边听。
如果单单看这两件事的行为,乍一看完全没有什么联系,但是如果我们仔细思考一下,这两个观察中都透露了一个共同的行为特征,那就是用户是把机械性重复工作和需要认知的任务分开在做(Divided Body and Mind)。
这种总结性的陈述可以帮助我们解释大多数在调研中观察到的现象,而这个解释也就是我们所说的insight。
insight可以解释观察中的大多数现象,也可以用于解释其他没有被观察到的场景。
insight一般比较抽象,并不是所看即所得。
insight不需要定量的数据,也很有说服力。
就如作者所说,The best posture is your next posture Previous 这一句就很有insight。
参考:
https://www.jianshu.com/p/af8823d5900d
另外,洞察力能够清楚地看到或理解某些东西。
它通常包括因果关系:如果您执行“ A”,则将发生“ B”。
洞察力,是一项需要创造力,毅力和深思熟虑的技能。最有力的见解来自严格和认真的分析,可以将大量数据转换为简明而引人注目的发现。
# 思考题
机器如何度量某句话的insight程度?
会在后续文章进行分解~
- 算法见解如何实现
见解是有一定的模式的(套路)
因而是可以被算法所实现的
Power BI Desktop 为我们展示了2种可被算法实现的见解:
解释图表中的波动
发现分配发生变化的位置
例子:2014 年的销售额大幅下降,
第一季度与第二季度之间的销售额骤减。
在图表中,你通常会看到数值大幅上升又急剧下降的情况,
那什么是导致这种波动的原因呢?借助 Power BI Desktop 中的见解,只需单击几下即可了解原因。
(对数据进行研究,以帮助解释发生变化的原因)
图1
右键单击数据点,可以看到分析选项下面有:
在这里我们选择“解释此减少情况”。
见解功能给出的答案是:销量里具体每一种产品贡献率及其比重变化。(计算机、家用电器、电视、音响等)
图2
我们还可以切换见解所给出的图表形式,选择显示为散点图、堆叠柱形图或功能区图。
图3
在页面顶部Power BI Desktop提供了“很棒”和“很差”的图标,
这样你就可以提供关于自动见解的反馈。
对于本例中类别的每个值(计算机、家用电器、电视、音响等),散点图显示第一个时间段的度量值(在 x 轴上)与第二个时间段的度量值(在 y 轴上)。
如下图所示,如果值增加,则所有数据点都在绿色区域中,如果值减小,则在红色区域中。虚线表示最佳匹配,
因此,此线上方的数据点增长的幅度超过总体趋势,而此线下方的数据点增长的幅度小于总体趋势。
图4
百分比堆积柱形图显示所选列之前和之后的度量值,并以百分比堆积柱形表示。
这允许对之前和之后的贡献进行并排比较。
工具提示显示所选值的实际贡献。
图5
带状图
带状图也显示之前和之后的度量值。
当贡献者的排序发生变化时(如果计算机之前是排名第一的贡献者,但之后降至第三),它对显示贡献变化特别有用。
图6
瀑布图
可显示各时间段之间的主要实际增长或下降。
瀑布图清晰地显示实际变化,但不单独指示贡献程度的变化。
(这实际上强调了将该列选为关注列的原因)
图7
在图表中,你通常会看到一个数据点
那如何知道不同类别的分布是否相同呢?
下图显示了不同国家/地区的总销售额。
如图所示,大部分销售额来自美国,占所有销售额的 57%,余下的销售额则来自其他国家/地区。
在这种情况下,探索是否会在不同的亚群中看到与之相同的分布通常很有趣。
图8
选择分析>找出分布的不同之处
图9
在此示例中,自动化分析显示,图中灰色部分为总销售额,彩色部分为旅行车的销售额。
结论:就旅行车而言,美国和加拿大的销售额比例降低,而其他国家/地区的比例升高。
算法见解,可以完成的工作
比如本例中的所有类别的销量是最大的一个维度,下钻之后,则是计算机、家用电器、电视、音响等下一个维度的观察。
- 解释波动是通过对比上下两个数据点的变化而得出的;
简单地说,计算该类别在之前和之后的时间段的细分,确定发生的变化量,然后返回那些变化最大的类别。
- 找出分布的不同之处只需下钻到每个类别,然后对比总的分布,找出不同的类别;
- 见解的图表提供多种形式的切换,并提供反馈功能,以收集数据改进自动见解的功能。
- 还可以发现哪些类型的见解?
从这些类型的见解可以了解到Power BI使用的算法。
-类别离群值(上/下)
突出显示一个或两个类别的值比其他类别大得多的情况。
图10
-更改时序中的点
突出显示数据时序中的趋势明显变化的情况。
图11
-关联
当针对数据集中的类别或值进行绘制时,检测多个度量值显示相似模式或趋势的情况。
图12
-低方差
检测维度的数据点不偏离平均值的情况,因此,“方差”较低。
假设你有度量值“销售额”和维度“区域”。跨区域查看时,你会发现数据点和(数据点的)平均值之间几乎没有差异。
当所有区域的销售额方差低于阈值时,就会触发见解。换句话说,所有地区的销售额都非常近似。
图13
-多数(主要因素)
查找当总值由另一个维度分解时,其多数可能归因于单一因素的情况。
图14
-时序中的整体趋势
检测时序数据中的向上或向下趋势。
图15
-时序中的季节性
查找时序数据中的周期模式,例如每周、每月或每年的季节性。
图16
-稳定份额
突出显示子值的份额相对于跨连续变量的整体父值有父子关联的情况。
稳定份额见解适用于包含一个度量值、一个维度和另一个日期/时间维度的上下文。
如果特定维度值(例如,“东北地区”)在相应日期/时间维度内占总销售额的百分比稳定,就会触发此见解。
稳定份额见解类似于低方差见解,因为它们都与某个值在整个时间内没有太多差异有关。
但是,稳定份额见解度量的是整个时间内总体百分比 没有太多差异,而低方差见解度量的是整个维度内绝对度量值没有太多差异。
图17
-时序离群值
针对跨时序的数据,检测特定日期或时间值明显不同于其他日期/时间值的情况。
图18
总结全文
智能可视化系列
见解是抽象的、具有规律性的(可以描述大多数场景的),机器可以结合下钻分析完成2种范式的见解:
解释数据的前后波动的原因、发现分布规律不一致。
除此之外还可以完成:
类别离群值、时序中趋势明显变化的点、时序中的整体趋势、时序中的季节性、时序离群值、低方差、多数(主要因素)、关联(检测多个度量值显示相似模式或趋势)、稳定份额。
相关链接、更多资料查阅 👇
Mix+人工智能专刊