学习数据可视化,读哪本书比较好?

入门数据可视化的小伙伴往往都会问这样一个问题:我应该从哪里开始学起,有什么书推荐吗?

这个问题之所以普遍,是因为数据可视化是一个相当交叉的学科,既涉及数据分析,也涉及设计和编程。而这三大方向之中,每一个又可以延伸出许多子领域(例如设计里面又可以分出静态图表设计、交互图表设计、图表动画设计)。这样一来,可能的学习路径就非常多样。然而,目前市面上的可视化书籍各有侧重、缺乏归类,导致读者很难高效挑选到最吻合自己学习目标的读物。再者,在中文世界里,高质量的数据可视化读物还不多,因此,如果想要深入了解这门学科,就绕不开要阅读一些英文著作。

基于以上这些原因,倭瓜在回答“我该读什么书”的时候,总觉得十分棘手。不过幸运的是,最近读到了一篇文献综述,对可视化领域的图书做了一次系统性梳理。这篇综述由英国Swansea University的两位研究人员撰写,在选书这个问题上给出了很好的指导。我们会首先介绍原版的英文图书,之后给出相应的中文译本。

可视化领域有多少书?

两位研究者总共搜集到了86本与数据可视化强相关的书籍。这86本书,涵盖了可视化基础理论、信息设计原理、可视分析、工具教程等多个方面。

其中,最早的可视化书籍发布于1967年,是来自Jacques Bertin的《图形符号学》(Semiology of Graphics)。此后十几年,都未有新的可视化书籍发表。

1983年,Edward Tufte发表了他的代表作The visual display of quantitative information,这也是可视化领域一本划时代的奠基之作。

此后,90年代,又陆续有几本新书出现。直到2000年,尤其是2010年以后,可视化相关书籍才迎来井喷。

这86本书的详细列表可在项目网站查看:http://visbooks.swansea.ac.uk/

如何给这些书归类?

从写作定位来看,这些书可以被归为6大类:

1.经典理论

2.通俗读物

3.学术教材

4.业界经验

5.专项知识

6.工具教程

下面我们来自己看看每一类具体都包含哪些书!

经典理论

经典理论一般是20年以上的奠基性作品,共6本:

1.Jacques Bertin的《图形符号学》(Semiology of Graphics)。

Bertin是一名来自法国的制图师,也是第一个系统地总结如何设计可视化的人。

比如,在这张图里,Bertin总结了各种各样的视觉符号,包括:尺寸、饱和度、纹理、颜色、方向、形状。同时,他指出了数据本身有不同类型,包括关系类数据、顺序类数据等等。通过将视觉符号与数据类型匹配,Bertin总结出了一系列可能的设计方案。

例如,下图展示了16种地图的画法,是不是比现在的很多地图都好看呢:

2.Edward Tufte的3本书:The Visual Display of Quantitative Information,Envisioning Information,Visual Explanation。

Tufte在可视化领域的影响力毋庸置疑。他最为人称道的著作就是第一本:The Visual Display of Quantitative Information。

这本书提出的一系列理念,可以说奠定了可视化领域的设计准则。从“派系”而言,Tufte的观点偏实用主义和极简主义,他强调用理性、客观的方法,判断一张图表是否能够最高效地传达数据信息。比如,他提出了数据墨水(Data-Ink Ratio)和图表垃圾(Chartjunk)的概念,强调应该减少与数据无关的墨水。

同一幅折线图,左边装饰主义,右边极简主义

3.William Cleveland的2本书:Visualizing Data,The Elements of Graphing Data。

第一本书比较偏向用可视化进行数据分析,即如何用图表绘制复杂的数据类型,包括单变量,双变量,三变量等等。作者提出的这些图表画法,在今天的很多统计软件里已经能常常见到:

用矩阵查看正态分布

Cleveland的第二本书则主要关注图表元素的正确使用,比如图例、数据标签、坐标轴等是否清晰。

遗憾的是,这六本书目前都还没有中文译本。这里推荐一些中文文章供阅读:Jacques Bertin与图形符号系统数据可视化有统一规范吗

通俗读物

通俗读物一般是向大众引介可视化概念、用法,并提供一些图表案例供翻阅。由于是写给大众看的入门类书籍,因此不要求读者有任何专业背景。

一些例子

影响比较大的有资深图表设计师、数据新闻记者Alberto Cairo的三本书:

其中两本已经被翻译为中文。通过阅读这些书籍,你可以了解到可视化是如何在真实数据上应用的,以及在设计可视化时,应该避免哪些误区或滥用。

还有一个更加“古早”的项目,Visual Complexity。这个项目从2005年起就开始搜集各种各样的可视化设计,十几年中已经搜集了上千个作品,并出版了一部书籍,中文叫“视觉繁美”。

不过,倭瓜最近一次登陆这个网站的时候,项目似乎已经缺乏维护。看着十几年前的设计,不禁感叹技术在进步,而美还是一如往常。

与此同时,市面上还有许多“图册”类的书籍,主要以印刷可视化作品为主。这类书的好处在于文字很少,因此看英文原版也不会有太大负担。同时,丰富的精选案例,也可以帮助你打开设计思路、激发可视化的想象力。

两本可爱的可视化画册

学术教材

第三类书是学术教材。这类书一般会系统性、分章节的讲解领域知识,受众为学习该专业的学生。

一些例子

比如,下面这本书从 What, Why, How三个层面讲解了什么是可视化、为什么需要可视化、以及如何可视化。

书中总结的视觉通道,比早期Bertin的总结要更全面一些,还包括斜度、弯曲度、体积、动画等等。这些通道都可以用来映射数据:

书中也对可视化设计的合理性进行了讨论。例如,人眼对哪些视觉通道的感知更加准确:

研究显示,位置类(Position)的视觉通道在感知上是最准确的,面积类(Area)则最不准确

如果你还想更加深入地了解可视化背后的心理学原理,那么下面这本教材是一个不错的选择。这本书基本上逐一介绍了人类对各种视觉元素的感知机制,包括亮度、色彩、空间感等等。

中文教材方面,目前有浙大陈为老师等编写的《数据可视化》。这本书梳理了可视化领域的学科分类和研究内容,对于想要学习可视化专业的同学来说是一本必读入门教材。

还有一些书笔者称之为“应用型教材”,主要关注如何实现可视化。例如Nathan Yau的两本书,中文分别译为“鲜活的数据”和“数据之美”。这两本书偏系统性的实操教材,包括如何处理数据、分析数据、如何使用工具画图等。

业界经验

这一类的书籍一般是业界人士的现身说法,结合业务和实操经验进行分享。它的目标读者一般是特定行业的从业者或专业人士。

一些例子

例如,《用数据讲故事》。这本书由谷歌的前人力分析团队经理撰写,主要讲解在了公司业务场景里应该怎样绘制数据图表,下图右边是它的中文版。

左:英文版;右:中文版

整本书不涉及任何复杂理论和技术,但是许多小知识、小技巧能切实提高画图的水准。比如,作者总结了一些商务汇报中常用的可视化类型:

抑或是提出一些改进办法,使得原本简陋的excel图表更加美观得体。下面这张图其实无形之中实践了Tufte的数据墨水理论,减少了许多不必要的元素,使图表整体更清晰、美观。

左:改良前;右:改良后

总体而言,倭瓜认为这本书很适合有日常作图需求的办公室人群,几乎不需要专业知识背景,会比学术教材更加通俗易懂。当然,有的时候,所谓的“业界”、“学界”并不是那么泾渭分明的。学术研究,往往也需要吸纳很多业界的需求,而学术产生的成果也常常会应用于实践中。

以下面这本书为例,这本书的主题也是“用数据讲故事”,但作者们都是资深的可视化研究人员。不过,尽管仍保留着学术的严谨性,书籍的整体风格并不晦涩,里面的文章也都不是严格意义上的论文,而是夹杂了许多观点、评论和案例。笔者认为这是一个跨越固有边界、促进思维碰撞的有益尝试。

这本书暂时只有英文版

还有不少书专门讲解商业仪表盘的制作经验:

或者是定位于设计师的经验分享:

因此,在选书时,最好认准自己本行业专家撰写的图书。

专项知识

专项知识类图书一般解决一个具体的领域问题,一般是偏技术类的问题,例如如何针对安全类数据进行可视化、如何对多维度数据进行降维展示、如何对城市规划数据进行可视分析等等。

这些书往往是众多学术研究成果的集成品,因而相对专业艰深,适合领域专家研读。目前这一类的图书的中文译本还很少,因此不做过多介绍了。

一些例子

工具教程

这一类图书主要讲解某个工具的具体用法和操作步骤。而工具的种类也非常繁多,且以编程语言和软件为主(如Python, D3.js, Processing)。这类图书中文译本不少,且中国本土也有很多人撰写此类书籍。

然而,这类书也存在一些潜在问题,比如,教学的质量不高、光是看书难以学会实操,以及工具本身更新换代速度快等等。尤其是中文的技术类图书,灌水的比例更大。因此笔者认为,在学技术时,读书可能会帮助理解技术的构建方式和底层逻辑。但要熟练掌握这门技术,还是要依靠不断的上手练习和项目实战。

否则就会这样

最后打个总结。如下图所示,总体而言,早期的书籍以经典理论(蓝色)为主,而近年来则出现了越来越多工具教程(紫色)以及面向大众用户的通俗读物(绿色)。同时,也出现了一些内容更综合的书籍,例如在分享案例的同时,提供工具教程(蓝黑色)。当然,当我们书架上的选择越来越丰富的时候,辨别好书也就越来也重要。

可视化书籍数量,按时间排序

哪些书最值得读?

下面这张图显示了所有可视化书籍的学术引用量(展现其学术影响力,y轴表示)和亚马逊销量(展现其普遍的热门程度,x轴表示)分布。

可视化书籍的引用量(y轴-越上越高)和亚马逊销量(x轴-越左越高)

首先来看高引的书籍,也就是图上的这几本:

引用量最高的是Tufte的The Visual Display of Quantitative Information,截止倭瓜发文时已经被引超过13000次,引用量相比其他书可以说是一骑绝尘。Tufte的另外两本书,Envisioning Information和Visual Explanation,分别位于被引的第2名、第7名。上文介绍的心理学教材Information Visualization: Perception for Design位列第3名。Bertin和Cleveland的经典理论著作位列第4、第5。位列第6的是Illuminating the Path,这本书由美国国土安全部资助,致力于将数据的可视分析应用于国家安全维护和反恐。位列第8的是另一本可视化教材Information Visualization: An Introduction。

再来看销量。下图红框中是销量最高的几本书:

所有书中销量最好的是业界实战书《用数据讲故事》。Edward Tufte和Bertin的经典著作分别位于销量的第2、第3、第4、第7位。同样高销量还有通俗读物如The Functional Art(《不只是美》),以及业界经验书如Information Dashboard Design。

可以发现,在国外,经典理论著作无论是在引用量上,还是销量上,都处于优势地位。而在销量上同样表现突出的,则主要是业界经验和通俗读物。

出于好奇,笔者也去查了查京东上卖得最火的可视化图书。结果显示,在中国最为畅销的基本上都是技术类教程,着重于工程实操。相反,基础理论和行业经验类的书籍则数量较少,且大多译自英文,鲜有来自本土的作者。可见,国内的可视化理念普及还需时日,同时,我们也希望看到更多优质的本土作品出现。

以“数据可视化“为关键词搜到的图书,按销量排名

当然,引用量和销量并不是评价一本书的唯一标准。一方面,一本书是否被大多数人熟知存在一定的偶然性,并不是所有的好书都是热门的;另一方面,读书是人和书交互的过程,能够解答你疑惑、启发你思路的书往往才是最“对胃口”的书。

书山有路勤为径。挑一本书,开启你的可视化之旅吧!

————————————————

参考文献:

Rees, D., & Laramee, R. S. (2019, February). A survey of information visualization books. In Computer Graphics Forum (Vol. 38, No. 1, pp. 610-646).

https://www.youtube.com/watch?v=8EMW7io4rSI

https://medium.com/starlinking/%E7%94%A8%E6%95%B8%E6%93%9A%E8%AC%9B%E6%95%85%E4%BA%8B-d21cb7fc1540.

https://medium.com/vis-it-%E6%9C%89%E8%A6%96%E6%B2%92%E4%BA%8B/%E5%8F%AF%E8%A6%96%E5%8C%96%E5%9F%BA%E7%A4%8E-jacques-bertin-%E8%88%87%E5%9C%96%E5%BD%A2%E7%AC%A6%E8%99%9F%E7%B3%BB%E7%B5%B1-63c99484da5f.

https://medium.com/@mslima/visualcomplexity-com-ad9a12fa2c1a

https://www.jonasoesch.ch/reading/munzner-14-visualization-analysis-and-design

https://slidetodoc.com/visualization-analysis-design-tamara-munzner-department-of-computer/

- the end -

(0)

相关推荐