数据可视化的魔力——一图胜千言

"可视化实际上是关于外部认知,也就是说,如何利用心灵之外的资源来提升思维的认知能力。"

本文重点介绍可视化与数据的重要性。科学,工程,商业和日常人类活动中产生的信息的数量和复杂性正以惊人的速度增长。良好的可视化不仅呈现数据的视觉解释,而且提高理解、沟通、决策效果

可视化的重要性是几乎所有数据科学家在大学入门级课程中教授的主题,但是很少有人掌握。由于其固有的主观性质,它通常被认为是显而易见的或不重要的。本文希望消除其中的一些想法,并向您展示可视化非常重要,不仅仅是在数据科学领域,而是用于传递任何形式的信息。

通过多个示例向读者展示精心设计的可视化对传达想法或信息的影响。此外,讨论制作有效可视化的最佳实践,以及如何开发自己的可视化以及可用于实现此目的的资源。

什么是可视化?

(1)心理视觉形象的形成。

形成心理视觉图像,通过数据的图形表示来传达信息。

如果你正在从事数据科学职业,这是你要掌握的最重要的技能之一,并且几乎可以转移到任何学科。让我们想象一下,你试图说服你的经理投资一家公司,并向他们提供一个包含数字的电子表格,向他们解释为什么这是一个如此好的投资机会。如果你是经理,你会如何回应?

如果以视觉形式呈现,信息通常更容易消化,特别是如果它利用人类可以直观地解释的模式和结构。如果想要快速简便的可视化,几乎不需要任何努力,可以使用饼图或条形图。

阻碍我们使用可视化的另一个因素是我们可用的数据量。我如何知道可视化是否是传达消息的合适方法?

这是一个难以回答的问题。一项设计研究建议我们根据任务的清晰度和信息的位置来评估使用可视化的可行性。

设计研究方法论,Michael Sedlmair,Miriah Meyer和Tamara Munzner。IEEE Trans。可视化和计算机图形学,2012年。

如果我们位于此图的右上角,则开发和编程交互式可视化变得可行,这是数据科学家现在进入的领域,因为信息爆炸导致的数据规模持续增加。

信息爆炸

我们现在生活在一个数据驱动的世界中,它很可能变得更加数据化。从多个领域可以清楚地看到这一点,例如开发大型传感器网络的重要进展以及与世界互动的人工智能代理,如自动驾驶汽车。

在数据具有主权的世界中,拥有开发清晰且有影响力的可视化的能力正在成为越来越必要的技能。

好的和坏的可视化

几千年来,人类一直在创造可视化,虽然洞穴人的图画比我们现在的图像稍微不那么引人注目,但仍然很高兴欣赏一些早期可视化的强大程度,以及它们的影响力。在现代世界。

达芬奇为例,他是一位意大利博学家,不仅是第一个提出令人难以置信的发明的人,如飞机,直升机和坦克,而且还非常擅长绘画。他的工程和解剖学图纸,如下图所示,非常逼真,而且易于理解。

几百年前,当我们没有计算机为我们绘制东西时,熟练绘画对于可视化的目的是非常必要的。花点时间欣赏伽利略在农历的不同阶段的月亮草图。

我们并不经常盯着月球的古代绘画,所以在现代世界中是否真的需要这些类型的可视化?

答案显然是肯定的。即使在十年或十五年前,学习类似化学的东西也是非常困难的,尽管能够描绘脑中的分子,但仍然很难在复杂的科学词汇和你正在发生的事物的心理图像之间进行转换。如今,人们可以使用Youtube并输入几个字,观看基本上任何化学方面的可视化或视觉演练。同样的想法基本上适用于科学中的任何抽象概念。

所以现在我们已经说服自己,可视化对于传达信息非常有用,并且还可以用于以更可解释的方式解释复杂的想法。

什么是良好可视化的例子?

在波士顿,我们有一个名为T的地下地铁系统。与任何城市地铁系统一样,有许多不同的线路,它们向各个方向行进,由于距离较远,一些线路比其他线路更长。

以下可视化不仅捕获以同心球形式从市中心到每个站点所花费的时间,而且还遵循每条线路的正确方向。看一下这个图表,可以很快找出要采取的线路,走向哪个方向,以及到达那里需要多长时间。

第二个可视化显示了上个世纪在马萨诸塞州出生人的运动。我们看到,在1940年,82%出生在马萨诸塞州的人预计住在马萨诸塞州。现在快进到现代,我们看到这个数字已降至64%,我们可以合理地了解这些人移居的地方。

有史以来最着名的可视化之一是约瑟夫·米纳德(Joseph Minard),它描绘了拿破仑向俄罗斯进军的旅程。

描绘了拿破仑的军队离开波兰与俄罗斯的边界。一个厚厚的带子说明了他的军队在前进和撤退期间在特定地理点的大小。它在两个方面显示六种类型的数据:拿破仑军队的数量; 旅行的距离; 温度; 纬度和经度; 旅行方向; 并且相对于特定日期的位置。米纳德的兴趣在于士兵们的辛苦和牺牲。

现在让我们考虑将不良可视化转换为更适合其目的的可视化。这对于地铁地图来说是最容易的,所以我会考虑伦敦的地铁地图,我们将看到为什么它被改变以及它们的新设计如何在原始设计上得到改进。

这是可以追溯到1927年的伦敦地铁的原始地图。该图的主要问题是由于它们非常接近而存在大量紧密间隔的地下车站。这源于地图是根据台站的地理位置绘制的。然而,当远离城市时,地图上仍有大量空间未使用。

1933年,哈里贝克想出了伦敦地铁地图的新设计。贝克认为乘客不关心地理准确性,并且最感兴趣的是如何从一个到另一个车站以及换乘火车的地点。他从电子图表中汲取灵感,决定以单独的颜色显示每条线条,并在电气图上显示它们与其他线条的连接。该图保持每条线路的方向信息,但距离信息丢失,因为贝克认为不必要。

我们可以看到纽约地铁地图发生的非常类似的争论。你认为哪个更好?

尽管我们已经查看了几个地铁地图,但显然没有明确的解决方案可以适用于所有情况。毕竟,这取决于哪些数据与受众最相关。哈里贝克决定乘客不关心距离或地理信息,只知道他们知道如何从A站到B站以及有什么联系。也许这个想法不适合纽约人,因为他们比伦敦人更关心知道距离和地理位置。

安斯科姆的四重奏

数字可能令人难以置信的误导,正如现在著名的安斯科姆四重奏形式的格特鲁德安斯科姆所证明的那样四重集是一组四个数据样本,具有完全相同的均值,方差,相关性和线性回归线。

Anscombe的四重奏以表格形式(Anscombe,1973)

然而,从结果的视觉表示中可以清楚地看出,四组数据的分布是完全不同的。

Anscombe的视觉形式的四重奏(Anscombe,1973)

为了强调这一点,开发了六个数据图,所有这些图都具有相同的均值,方差,相关性和线性回归线。如下面看到的,这些也是完全不同的。

可视化可用于代替量化指标以使数据结构更清晰,更有意义的这种想法使我们自然地进入误导性可视化的领域。数字可以用来误导我们数据的结构,它也可以反过来工作,可以巧妙地制作可视化以扭曲数据中的底层结构。正如我们将要看到的,这是一种非常普遍的现象,特别是在易于发表话语的领域,如政治和科学辩论。

误导性可视化

有许多人使用统计数据来误导个人。实际上,这是一种在政治中使用的极为常见的策略。一个例子是与乔治·布什总统提出的减税有关,其中通过扭曲条形图的轴线使得看起来幅度增加了5%。

左)可视化显示给观众,(右)显示较少的欺骗性可视化

这些欺骗性策略通常涉及测量轴的扭曲。这是与失业相关的轴失真的另一个例子。

实际上,情节应该是这样的。

通过使用可视化来欺骗人们的另一种方式是通过省略数据。

我们清楚人们可以通过精心设计的可视化来支持欺骗。这是一个显示全球变暖是一个神话的一个典型例子,这个想法自20世纪90年代以来就没有受到环境科学家的质疑。

一个不那么具有欺骗性的图表如下所示。

截至目前,我们刚刚讨论了为欺骗我们而积极设计的可视化。

小心彩虹

彩虹色地图可能是我每天遇到的最烦人的可视化。这些不仅难以使用,因为色盲人(可能会出现区分许多颜色的问题,但将颜色分配给定量值则是荒谬的。

彩虹色图在感知上是非线性的。谁决定蓝色代表的数量低于黄色或红色?转换何时发生,它们有多突然?

彩虹彩色地图

解决这个问题的最佳方法是坚持使用两种颜色并使用线性颜色变化来表示定量值。在这个意义上,绘图可以着色,但绘图的定量性质由颜色的亮度描述,较暗的区域通常表示较高的值。这个想法如下所示。

这基本上使它们与热图或等值线图相同,如下图所示。

在2016年总统大选之后,美国投票就是一个很好的例子。

色盲

记住合理数量的人是色盲并避免使用可能对这些人有问题的颜色组合这一事实总是好的。以下面的可视化为例。

该图中使用的颜色对于患有红绿色盲的人来说是一种可怕的组合。最好注意至少使用红色和绿色的组合,因为这种类型的色盲是最普遍的。

边缘捆绑

边缘捆绑背后的想法实质上是围绕从一个节点到另一个节点沿着相同路线的所有路径缠绕弹性带。这用于网络图,并且具有使可视化看起来不那么杂乱的毛球的优点,并且如我们在下面看到的那样更加令人愉悦。

此方法的缺点是,在捆绑后您无法遵循确切的链接或路径,这意味着我们的可视化不会反映基础数据,丧失一些图形完整性。

可视化过程概述

现在我们已经看了一堆可视化并理解好的和坏的可视化之间的区别,现在是讨论什么样的可视化好。

可视化目标

· 数据探索 - 找到未知数

· 数据分析  - 检查假设

· 演示  - 沟通和传播

基本上就是这样。然而,这些术语非常含糊,因此很容易理解为什么个人难以掌握通过可视化进行交流的艺术。因此,有一个模型可以帮助我们实现这些目标。

五步模型

可视化通常被描述为以下五步模型,该过程遵循相当合理的进展。

首先,需要一个人将要作为评估对象的特定目标或问题隔离开来。

接下来是数据争论,这是数据科学家在处理数据时所做数据的90%。此过程涉及将数据转换为可行的格式,执行探索性数据分析以了解其数据集,这可能涉及汇总或绘制数据的各种方式。

第三阶段是设计阶段,涉及开发一个您想要用数据讲述的故事。这与我们定义的目标紧密相关。我们想要传达的信息是什么?这也可能取决于你的观众是谁,以及分析的客观性水平。

第四步涉及可视化的实现,例如使用基于交互式网络的可视化编程。这是涉及一些编码的过程的一部分,而设计阶段涉及思考,绘画,构思等。

第五阶段基本上是一个审查阶段,实现并决定它是否发送你要传达的消息,或者回答你要回答的问题。

实际上,这是一个非线性过程,尽管它通常表现为一个过程。这是一个更现实的模型形式。

看起来很简单吧?嗯,实际上有很多方法可以解决这个问题,而且往往没有意识到。以下是三个最常见的问题:

领域情况 - 你是否正确了解用户的需求?也许正在解决错误的问题。这是与目标阶段相关的问题。

数据/任务抽象 - 你是否正确地展示它们?也许正在使用错误的抽象。这也是与目标阶段相关的问题。

可视编码/交互 - 显示数据的方式是否有效?也许正在使用错误的习语或编码。这是与设计阶段相关的问题。

算法 - 你的代码太慢吗?它可扩展吗?这是实施阶段的问题。也许正在使用错误的算法。

解决你的代码破裂这一事实可能是显而易见的,但是你如何评估我们刚刚解决的更主观的问题,比如领域情况或使用的可视编码?我们可以倾向于评估指标。

我们可以依赖定性和定量指标。定性度量通常对可视化最有用,因为可视化是为了向人们传达信息而开发的,要使用的度量的一些示例如下:

  1. 观察研究("大声思考")
  2. 专家访谈(又名设计评论)
  3. 专门小组

这些定性程序的想法是,个人应该能够看到可视化并理解您试图传达的信息,而无需任何其他信息。这些类型的研究和指标通常用于营销和网页设计等领域,因为它们可以洞察个人如何解释和回应他们的想法或设计。

经验法则

以下是Edward Tufte有效可视化的三条规则:

  1. 图形完整性
  2. 最大化数据墨水比率
  3. 避免图表垃圾

图形完整性

在讨论误导性可视化时,我们已经对此进行了一些讨论。一般来说,试图误导具有统计数据的个人是不好的做法,对社会有害。

最大化数据墨水比率

这个经验法则是关于清晰度和极简主义。一般来说,3D图表往往不太清晰,在某些情况下可能会产生误导。检查下面两个图表之间的差异,并确定您认为哪个更好。

避免图表垃圾

无关的视觉元素会分散人们对传达信息的注意力。

交互式可视化

下面是你会喜欢的可视化。

权力的游戏中的地方

在权力的游戏传奇中讨论的位置名称。

枪在美国死亡

枪在美国死亡

英国的道路安全

这种可视化建立在deck.gl上,非常有趣,可以玩这个网站 - 我建议您查看这个网站上有多个其他交互式可视化。

英国的道路安全

州首府的道路

这种可视化是美国的交互式和彩色编码地图,以及通往每个州首府的所有道路。

美国贸易逆差

这是一个美丽的可视化,可视化2001年至2013年美国的贸易逆差。

链接的爵士网络图

这张互动图表展示了爵士乐中的一些着名人物以及他们如何影响其他艺术家。

(0)

相关推荐