生物数据可视化着色的十个简单规则(上)
用于生物数据可视化的方法不断改进,但是在一些可视化图形的着色方面仍然存在根本性的挑战。
生物学数据的视觉不应淹没,掩盖或偏倚结果,而应使其更易于理解。这是对于在创建可视化效果时如何有效使用颜色的挑战。
本文将介绍10条简单的规则来对生物数据进行可视化着色。
总览
规则1:确定数据的性质
规则2:选择色彩空间
规则3:根据所选颜色空间创建调色板
规则4:将调色板应用于数据集以进行可视化
规则5:套用调色板后,检查数据中的颜色背景
规则6:在数据可视化中评估颜色的交互作用
规则7:要了解特定学科的颜色惯例和定义
规则8:评估色差
规则9:考虑网络内容的可访问性和打印实际情况
规则10:黑白分明
第
1
则
-THE FIRST-
确定数据的性质
数据是有价值的信息记录。可视化数据是将这些数据中包含的想法、经历和故事联系起来的一种重要而有力的方式。
图形和数据可视化促进了生物信息在不同背景下的表达和交流,形成叙述、想法和经验。要使数据中包含的信息具有形状,了解数据的性质是重要的。借用描述性统计的领域知识,数据如性别、年龄、身高、体重和眼睛颜色等被称为变量。变量的类型与数据的性质有关。
区分变量类型的一种方法是依赖于分配给变量的值中的信息的性质。这个被称为测量的水平或尺度,将观察到的变量分为4个级别:名义、序数、区间和比率。这些数据也可以分为两种不同的数据类型:定性或分类(名义、序数)和定量(区间、比率)。
下面我们分别用一个例子来描述和解释:
名义描述了一个变量的属性,只通过名称(类别)来区分,没有顺序(等级、方向或位置)。
例如:性别、生物种类、眼睛颜色,血型(A、B、AB、O),细菌类型(球菌、芽孢杆菌、螺旋菌等)。它们是一个多值变量,没有明确的尺度来适应不同的值。
序数层次描述了按顺序(等级、规模或位置)区分的变量的分类属性,但没有关于它们之间差异相对程度的信息。要注意这种变量可能会用数字编码。
举例:热度(低、中、高);疾病的严重程度(轻度、中度、重度);一致量表,如李克特量表,(强烈不同意、不同意、无意见、同意或强烈同意)。
注:李克特量表是一种心理反应量表。
区间级别描述变量的属性,通过差异程度来区分,没有绝对零度,并且属性之间没有已知的比率。通常,该变量的数值为正、负或零。
例如:公制摄氏温标,温差(摄氏度和开尔文),1年的间隔。20℃和30℃之间的差异与25℃和35℃间的差异相同.。
比率级别描述变量的属性,这些属性通过它们之间的差异程度来区分,绝对为零,并且属性之间的比率是已知的。具有负值是不典型的。
例如:年龄、身高、体重、持续时间、开尔文温标。此外,假设数值的定量数据(区间或比率)可以进一步分为离散或连续。
离散(可计算的)变量仅假设整数和某种计数。
例如:年龄和日期是离散的。年龄在1年内保持不变,而日期在24小时内保持不变。它们都以“1”跳跃或增加。
连续(定义范围内的任何值)变量可以取某个值范围内的任何值。对这种测量的观察会受到测量仪器的限制。
例如:身高(厘米,英寸),体重(公斤,磅),温度(摄氏度,华氏度),时间(小时,分,秒)。温度逐渐升高,时间不断流逝。
当只有两个可能值时,二进制或二分变量类型是一种特殊类型。示例:是或否调查问卷和二进制数字(0或1)。
表1根据4个不同的测量相关类别介绍了4个测量级别,包括从最低到最高的测量分辨率。
表1 四个层次的测量
使用4个与测量相关的类别来比较等级:分辨率、属性、数学运算符和中心趋势。
第
2
则
-THE SECOND-
选择一个颜色空间
颜色空间指的是颜色转化为数字的颜色模型。基于一组原色,颜色模型创建许多颜色。每个模型都有其可以产生的特定颜色范围,该范围定义了色彩空间。
通常,红、绿、蓝(RGB)和青色、洋红、黄色和黑色(CMYK)是最常见的系统,当然还有其他系统。例如,色调、饱和度和亮度/值(HSB/HSV)颜色空间是RGB颜色模型或标准红绿蓝(sRGB)颜色空间的替代表示。
注:关于这些维度的更多信息,大卫·布里格斯的网站名为《颜色的维度》是一个关于颜色理论和使用的信息宝库。
传统的颜色工具,如色轮,鼓励艺术/手工颜色选择。颜色或代码的数值是不同的,将颜色视为特定颜色空间中的数字。此外,由于我们选择的数字和输出颜色之间可能会出现差异,颜色空间应该在感知上是一致的。
在颜色科学领域,已经努力建立独立于特定颜色显示或复制设备的颜色空间。人们努力创造出感觉上统一的色彩空间。这些颜色空间背后的动机是使空间与人类视觉感知颜色属性的方式紧密一致。
下表是常用的颜色空间(表2),接下来将要讨论的是解决感知一致性问题的颜色空间。
表2 常用色彩空间的优缺点
由于复杂的颜色转换,光线混合的维度反映了人类视觉的工作方式。下面几种是我们需要考虑的各种特征:模型,线性,直观,组件分离以及设备相关。
模型
一个有序的系统,用于从一小组原色中创建一个完整的颜色范围
线性
颜色值相同的变化应该会产生视觉重要性大致相同的变化
直观
指颜色维度易于重新映射到不同的颜色模型
组件分离
指相对于其他维度分离1个颜色维度。
例如,色调、饱和度和亮度(HSL)分离亮度分量(明度),在图像处理的领域知识中特别有用。
设备相关
颜色空间依赖于所使用的设备来设置、制作和渲染的情况。
亮度是光的可见能量或根据人类视觉系统的逐波长响应加权的物理光能。
色度是一个区域的颜色,它被判断为一个相似的被照亮的区域的亮度的一个比例,这个区域看起来是白色的或高度透射的。虽然色度描述了光的心理物理颜色,但它与光的强度(亮度)无关。
所列出的感知一致颜色空间优于RGB和CMYK颜色空间。RGB用来表示颜色,但它不足以进行颜色处理,并且不是行业标准。
由于CMYK主要用于印刷,它有许多缺点,将在下一篇规则9中进一步讨论。然而,它们并非没有混淆的效果,例如亮度随色调而急剧变化。
LUV和LAB都追求感知一致性。虽然两者都已被CIE(国际照明委员会)采用,但通过依靠三个组成部分并计算相邻颜色之间的椭圆距离,可以观察到空间中不同颜色的相对概念差异。
因为它们是独立的,我们建议使用它的颜色空间。如果选择了,就需要为数据创建一个合适的调色板。
第
3
则
- THE THIRD -
基于选定的颜色空间创建调色板
创建一个调色板很像选择一套衣服。重要的是要了解允许选择颜色来给数据可视化着色的规则。
为了根据特定的颜色空间选择调色板,通常使用色轮。它是一种围绕一个圆圈组织不同颜色以显示颜色之间关系的工具。通常,色轮包含 12 种颜色。
创建色彩和谐是一个选择在图像合成中协同工作的色彩的过程。基于色轮上的颜色组合,有助于为色彩如何协同工作提供共同的指导方针。
我们可以区分有助于使用色轮创建配色方案的软件和/或网络工具,即Adobe color和配色方案设计器Paletton。
除了创造美学上令人愉悦的颜色组合,调和性还可以用来指导调色板的创建。它们包括单色、模拟和互补。
下图描绘了青色调中的三个调和示例。应该注意颜色的小点,以描绘出特定的色调排列(单色、相似和互补)。
单色或单调色度
是一种单一色调,它在色调、色度和饱和度方面有所变化。一个特别的例子是单调方案,但非彩色(没有色调),仅由从黑色到白色的灰度值组成,即灰度。
相似色
是那些位于任何给定颜色的两边或被一个颜色分开的颜色。这些通常是自然界中的配色方案。
互补色
是色轮上彼此直接相对的颜色。他们经常形成对比,相互突出。当用作数据中的高亮颜色时,它们非常有用。
为了更好地将颜色的使用与数据类型联系起来,信息设计师和数据科学家将上述数据类型(规则1)简化为三种主要类型:连续的、发散的和定性的。
这些分类是在ColorBrewer工具中开发的,最初旨在为制图提供颜色建议。这一概念已经被数据可视化社区所采用,反映在蒙兹纳的可视化分析和设计教科书中。该网络工具可以在colorbrewer2.org找到。
下图展示出了每个数据类型的调色板的例子。
顺序调色板
适用于从低到高变化的有序数据。视哪一方对观察者来说最重要,视觉编码是两种颜色之间的变化,分别从白色或较亮的颜色到黑色或较暗的颜色。这种颜色使用是明度逐步变化,通常重要的数据值具有较暗的颜色。这些调色板对应于包含1种颜色变化的单色调色板。
发散调色板
显示两个方向的视觉变化。主要用于在区间数据范围的两端同等强调中间值和极值,它们通常是对称的。颜色在黑暗中增加,以表示断点(如零变化或平均值)周围与数据中特定有意义的中间值之间的差异。
定性调色板
不依赖或暗示类别之间的数量差异。通常,色调以一致的亮度来表示名义和分类数据。还有另外两种变体:成对和强调。处理无序数据时,成对调色板通过视觉关联类来处理成对数据,但强调调色板通过更饱和的颜色来强调相关类。
除了前面提到的工具ColorBrewer,还有两个调色板:一个用于连续数据,另一个用于定性数据。
对于连续数据,推荐 viridis调色板。它在感觉上是均匀的,并以多种色调显示单调增加的亮度。多亏viridis调色板和其他调色板,一个连续数据集的所有数据点都具有同等的视觉重要性。此外,我们将在下一篇的规则8中看到,这些调色板对色弱和色盲是友好的。
对于定性数据,Tableau 10调色板可以推荐给大家。它包含几个非常不同的色调,亮度值范围很广。虽然它是用10种颜色设计的,而且很适合三色异常,但它所有颜色的使用对其他颜色缺陷是一个挑战。我们将在规则4和下一篇规则8中讨论定性数据的颜色限制。
另外还有一个创建调色板的网络工具,即Colorgorical( http://vrl.cs.brown.edu/color)。
第
4
则
-THE FOURTH-
将调色板应用到数据集进行可视化
要应用选定的调色板,需要考虑将颜色映射到数据点的过程。基于规则3,我们考虑了3种不同的颜色映射调色板:连续的、发散的和定性的。
对于连续调色板,色调应该受到限制,只有亮度或饱和度应该变化。根据背景颜色、手头的任务和数据的性质,将较高的值映射到较暗或较亮的颜色非常重要。
在下图中,我们展示了一个热图,描述了不同字符串之间的Jaccard索引和由分层聚类提供的背景信息。
对于发散的调色板,当数据有有意义的或关键的中断时很重要。通常,关键断点应该采用中性颜色,如灰色,端点应该采用饱和颜色。一般来说是对称的,临界断点可以是平均值、中间值或零变化值。
在平均值或中位数的情况下,通常有低终点和高终点。在负值和正值有零值中断的情况下,端点应使用不同的色调。为了突出分歧,中断可以去饱和,端点可以饱和。
对于定性调色板,建议仅使用 5 - 6 种颜色,如果绝对需要,也可以使用更多颜色。实际上,当使用ColorBrewer时,限制被设置在3到9的范围内。
第
5
则
-THE FIFTH -
应用调色板后检查数据的颜色背景
如果有理由的话,我们认为颜色是不变的,即使它们在不同的光线下。事实上,颜色恒常性是感知物体颜色的能力,不受光源颜色的影响。这主要是因为颜色是一种相对的媒介。
举个例子,比如我们可以看到一根香蕉在阳光充足的中午或光线微弱的黑暗房间里呈黄色。然而,在某些情况下,相邻的颜色会改变我们的感知和区分某种颜色影响的能力。
下图显示了一个数据视觉的例子,其中白色可以与灰色背景区分开来,比如在你的电脑屏幕上。然而,同样的白线在白色背景下很难区分,也许当打印在白纸上时。当白线变成黄线时,情况就解决了。
有个“Interaction of color”app可以进一步教会你如何意识到颜色的背景,它是约瑟夫·阿尔伯斯50年前写的《色彩交互》一书的数字化延伸。它为在不同的显示背景中学习颜色提供了练习。该应用还允许在interactionofcolor.com创建个性化的色彩研究和调色板。
在生物数据可视化中,通常会看到红色/蓝色的数据可视化。由于同时对比,对红/蓝颜色组合的偏好是可以解释的。下图就是这种情况。
左:红色/蓝色组合。右图:绿色/紫色补色组合改善了数据可视性。
同时对比是指两种不同的颜色相互影响的方式。这也是蓝色背景下很难阅读红色文字的原因。理论是,当两种颜色并排放置时,一种颜色可以改变我们对另一种颜色的色调感知。实际的颜色本身不会改变,但我们认为它们已经改变了。
法国化学家米歇尔·欧仁·切夫勒发展了这种同时对比的规则。它坚持认为,如果两种颜色靠得很近,每种颜色都将呈现相邻颜色补色的色调。类似的结果也可以发生在数据可视化中。然而,同时使用对比色可能难以评估数据趋势的变化。
好啦,关于生物数据可视化着色规则,今天就为大家介绍到此,剩下的五种规则,关注我们,下期更新~