以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dataviz/本章提供了通常用于可视化数据的各种图表的快速直观概览。如果你要寻找一个可能不知道其名称的特定可视化图形,它既可以用作目录,也可以作为图表制作的灵感来源。
数目的可视化最常见的还是使用垂直的和水平排列的条形图。除了条形图之外,我们还可以使用点图来进行可视化。这个点图是把点放到数量相对应的位置上来进行展示的。
如果对于有多组类别的计数。我们可以使用分组或者堆叠的条形图来进行展示。同时也可以把两个类别映射到X和Y轴上,这样就得到了热图来进行展示了。
另外,对于多组别的数目的展示的话,如果是想要展示不同交集之间的数目可以使用venn图和upset图。
直方图和密度图提供了最直观的分布可视化效果,但都需要选择可视化参数,并且可能会产生误导。累积密度和q-q图始终如实地表示数据,但更难以解释。
当我们想一次可视化许多分布,或者如果我们主要对分布之间的整体变化感兴趣时,箱式图 (boxplot),小提琴图 (violins),带状图 (strip charts) 和正弦图(sina plots) 很有用。堆积的直方图 (Stacked histograms) 和重叠的密度曲线(overlapping densities) 可以对较小数量的分布进行更深入的比较,尽管堆积的直方图很难解释,最好避免。脊线图 (峰峦图, Ridgeline plots) 可以替代小提琴图,并且在可视化随时间变化的分布时通常很有用。
我们使用饼图、并排的条形图以及堆叠的条形图来可视化比例。由于条形图可以分成水平也垂直的,所以也就分垂直和水平条形图了。饼图强调各个部分的总和并且可以突出显示简单的区分。但是每一部分之间的比较的话,并排的条形图可能更好一些。堆叠的条形图对于每一部分的比较不是很容易区分,但是在比较多组比例的时候很有用。
如果要进行多组比较的时候,这个时候饼图的空间往往就不够了。这个时候如果分组比较少的话,分组的条形图可以使用的。另外,堆叠的条形图基本使用所有情况,如果是比例沿连续性变量进行变化的时候,使用堆叠的密度图是可以的。如果要可视化多个分类变量的数据数据的时候,那么马赛克图(mosaic plot)、矩阵树状图 (treemaps)以及并行曲线图是很有用的可视化途径。具体的使用条件我们会在后面的几章进行讲解。
当我们想显示两个连续性变量的变化的时候,可以使用散点图来进行可视化。如果我们有三个连续性变量,则可以将一个映射到点大小上,从而创建散点图的一种变体,称为气泡图。对于成对的数据,沿x和y轴的变量以相同单位测量,通常添加一条表示x = y的线通常会有所帮助。
对于大量的点,常规的散点图可能会由于点过多,就容易看不清趋势。在这种情况下,轮廓线,2D箱或六角箱可提供替代方案。另一方面,当我们要可视化两个以上的变量时,我们可以选择以相关图而不是基础原始数据的形式绘制相关系数。
当x轴表示时间或严格增加的变量(例如治疗剂量)时,我们通常绘制线图。如果我们有两个响应变量的时间序列,我们可以绘制一个连接的散点图,其中我们首先在散点图中绘制两个响应变量,然后连接对应于相邻时间点的点。我们可以使用平滑线来表示较大数据集中的趋势。
显示地理空间数据的主要模式是地图。地图可以获取地球上的坐标并将其投影到平坦的表面上,这样地球上的形状和距离就可以用2D表示中的形状和距离来近似表示。此外,我们可以根据数据为地图中的区域着色,从而显示不同区域中的数据值。这样的图被称为choropleth。在某些情况下,根据其他一些数量(例如人口数量)使不同区域变形或将每个区域简化为正方形可能会有所帮助。这种可视化称为制图(cartograms)。
误差棒用来表示某一类数据的可能的范围,我们可以在水平和垂直的方面来显示误差棒。
为了获得比使用误差线或分级误差线更详细的可视化效果,我们可以可视化实际的置信。这个时候可以使用眼图或者半眼图。