人/自动化的交互
摘要——计算机硬件和软件的技术发展使在几乎所有人机系统方面中引入自动化成为了可能。考虑到这些技术能力,哪些系统功能应该自动化,以及自动化到何种程度?我们概述了一个关于自动化类型和等级的模型,这个模型能够提供一个体系和一个能为上述问题做出选择的客观依据。适当的选择是重要的,因为自动化不仅仅能取代还能改变人类活动,并且能够将新的协调需求加于人类操作员身上。我们认为自动化可以应用于四类功能:(1)信息获取;(2)信息分析;(3)决策和行动选择;(4)执行行动。在每一种功能中,自动化可以应用于一个从低到高的连续级别,也就是说,从完全手动到完全自动。一个特定的系统能够在不同的程度上包含这四类功能的自动化。特定的自动化类型和等级的人类绩效构成了用我们的模型进行自动化设计的主要评价标准。次要评估标准包括自动化可靠性和决策/行动后果的成本。 (文中)提供了推荐的自动化类型和级别的示例,以说明模型在自动化设计中的应用。
关键词——自动化,认知工程,功能分配,人机交互,人为因素,人机系统,界面设计。
1.介绍
考虑以下设计问题。具有大量动态信息源的复杂系统的操作员必须做出与有效和安全地实现系统目标有关的决策。 例如,麻醉医师被赋予各种生命体征,他们必须决定是否增加接受手术治疗的患者的药物剂量; 一名具有各种传感器读数的防空兵必须决定是否击落可能敌对的敌机; 或提供各种财务数据的证券分析师,他们必须判断是否要购买大量股票。 计算机硬件和软件的技术发展使系统的许多方面实现自动化成为可能,即使计算机执行人类操作人员通常会执行的某些功能。从简单地组织信息源到以某种摘要方式集成它们,到提出最适合传入信息的决策选项,甚至是执行必要的操作,自动化的类型和复杂性都可能有所不同。
系统设计问题是这样的:鉴于这些技术能力,应将哪些系统功能自动化并在何种程度上进行自动化? 这些基本问题越来越多地推动了许多新系统的设计。在本文中,我们概述了人类与自动化交互的模型,该模型为这些问题的答案提供了框架。特定类型和级别的自动化对人员绩效的影响构成使用该模型进行自动化设计的主要评估标准。次要评估标准包括自动化可靠性和行动后果成本。(本文稍后将对这两组标准进行更详尽的描述)。这样的组合方法—区分自动化的类型和级别并应用评估标准—可使设计人员确定在特定系统中应自动化的内容。由于评估标准的影响在系统之间可能有所不同,因此针对不同系统的自动化的适当类型和级别可以相差很大。因此,我们的模型没有规定在特定系统中应该和不应该自动化的内容。然而,与仅基于技术能力或经济考虑的方法相比,该模型的应用为自动化设计提供了更为完整和客观的基础。
2.自动化
机器,特别是计算机,现在能够执行许多功能,而这些功能一次只能由人类执行。这些功能(或自动化)的机器执行也已扩展到人类不希望执行的功能,或者无法像机器一样准确或可靠地执行。技术问题——如何实现特定功能的自动化以及相关传感器、控件和软件的特性——是自动化系统开发中的主要问题。 考虑到许多此类系统的设计复杂性和可靠性(例如,大型喷气式飞机的自动降落或两个航天器的对接),这也许不足为奇。自动化可以提供或被认为可以提供的经济利益也往往将公众的注意力集中在技术能力的自动化。
与大量有关自动化的技术文献相反,有一个规模虽小但正在增长的研究基地正在研究与自动化系统相关的人员能力[1] – [8]。 这项工作清楚地表明,自动化并不能简单地取代人类的活动,而是可以改变它,这常常是自动化设计者所不希望的和意料之外的事情[8],结果对人类操作员提出了新的协调要求[7]。然而,直到最近,这些发现在工程和设计界还没有太多可见性或影响。人类绩效问题的检查十分重要,因为现代技术能力现在迫使系统设计人员考虑一些关于如何自动化和过渡文本的艰难选择,因为这些东西很少可以自动化。在本文中,我们提出了一种针对自动化类型和级别的模型,该模型提供了进行此类选择的框架和客观基础。我们的方法以“以人为中心的自动化”[9]的概念以及以前对空中交通管制(ATC)自动化的分析[10]为指导。
让我们从定义自动化开始,因为该术语已被使用许多不同的方式。牛津英语词典(1989年)将自动化定义为:
1)通过多个连续阶段对产品制造进行自动控制;
2)自动控制在任何工业或科学领域的应用;
3)通过扩展,使用电子或机械设备代替人工。
该术语的原始用法是指自动控制(自动具有许多替代定义,表明自反作用,自发性和外部来源的独立性)。自动控制可以是开环也可以是闭环,并且可以指电子以及机械作用。自动化并不意味着现代化或技术创新。例如,用功能更强大的系统更新计算机并不一定构成自动化,用光纤代替电缆也不一定。本文涉及自动化系统中的人员绩效。因此,我们使用强调人机比较的定义,并将自动化定义为一种设备或系统,该设备或系统完成(部分或全部)由操作员先前(或可以想到)执行的功能(部分或全部)[8]。
3.自动化类型和水平的模型
在我们的定义中,自动化是指全部或部分替换以前由操作员执行的功能。这意味着自动化不是全部或没有,而是可以在一系列连续的水平上变化,从最低水平的完全手动性能到最高水平的完全自动化。这两个极端之间的几个级别已经被提出了[11],[12]。表I显示了一个10点规模,更高的级别表示计算机对人类行为的自主权增加[10],这是基于先前提出的规模[11]。例如,在较低的级别2,为人类提供了多个选项,但是系统没有进一步说明要选择哪个决策。在第4级,计算机建议一个替代方案,但人类保留执行该替代方案或选择另一个替代方案的权限。 在较高级别6上,系统在执行决策选择之前仅给人有限的否决时间。
高 10.计算机决定一切,自主行动,无视人类。
9.仅在计算机决定时通知人类。
8.仅在被询问时通知人,或者
7.自动执行,然后必须通知人,并且
6.在自动执行之前允许人有有限的否决权,或者
5.如果有人同意,则执行该建议,或者
4.提出一个替代方案;
3.将选择范围缩小到几个,或者
2.计算机提供一整套决定/行动替代方案,或者
低 1.计算机不提供任何帮助:人类必须采取一切决定和行动。
表I 决策和行动选择的自动化水平
图1. 人类信息处理的简单四阶段模型
自动化系统可以在此连续体内的特定级别上运行。例如,一个冲突检测和解决系统可以通知空中交通管制员两架飞机的飞行路线中存在冲突,并建议解决方案符合4级自动化要求。在级别6或更高级别下,除非控制器进行干预,否则系统将自动执行其自己的解决方案建议。
在提出的模型中,我们扩展了表I,以涵盖人机系统中不同类型功能的自动化。表I中的标度主要是指决策和动作选择或系统输出功能的自动化。但是,自动化也可以应用于输入功能,即,应用于决策和动作之前的功能。在模型的扩展中,我们采用了简单的人类信息处理四阶段视图(见图1)。
第一阶段是指多种信息来源的获取和注册。此阶段包括感觉感受器的定位和定向,感觉处理,在完全感知之前对数据进行的初始预处理以及选择性注意。第二阶段涉及意识感知,以及对工作记忆中已处理和已检索信息的操纵[13]。该阶段还包括诸如预习,整合和推理之类的认知操作,但是这些操作是在决策点之前进行的。第三阶段是基于这种认知处理做出决策的阶段。第四也是最后一个阶段涉及执行与决策选择一致的响应或行动。
这种四阶段模型几乎可以肯定是信息处理和认知心理学家发现的人类信息处理的许多组成部分的总体简化[14]。大多数任务的执行都涉及相互依赖的阶段,这些阶段在其处理操作中暂时重叠[15]。这些阶段也可以被认为是在“知觉-行动”周期中被协调在一起的[16],而不是来自刺激反应的严格序列。我们的目标不是辩论人类认知系统的理论结构,而是提出一种在实践中有用的结构。在这方面,图1所示的概念化提供了一个简单的起点,其自动化设计的意义深远。人们发现类似的概念模型在推导人为设计系统的建议方面很有用[17]。
图2. 信息获取,信息分析,决策选择和动作执行的独立功能的自动化级别。还显示了在功能维度上具有不同自动化级别的系统示例。
人类信息处理的四阶段模型在可以自动化的系统功能方面具有等效功能。 因此,我们建议将自动化应用于四类功能(另请参阅[18]和[9]和[19]中的相关建议):
1)信息获取;
2)信息分析;
3)决策和行动选择;
4)行动实施。
这些功能中的每一个都可以不同程度或多个级别实现自动化。表I所示的决策自动化的多个级别,也可以进行一些修改后应用于信息获取,信息分析和行动实施阶段,尽管各个阶段的级别数会有所不同。图2提供了我们的自动化类型和水平模型的示意图。为了方便起见,我们将这四种类型称为获取,分析,决策和动作自动化。我们有时也将采集和分析自动化称为信息自动化。
特定系统可以在不同级别涉及所有四个维度的自动化。因此,例如,可以将给定系统(A)设计为具有中等到高度的自动化获取,低分析自动化,低决策自动化和低动作自动化。另一方面,另一个系统(B)可能在所有四个维度上都具有很高的自动化水平。
A采集自动化
信息获取的自动化适用于输入数据的感测和注册。这些操作等效于第一个人类信息处理阶段,支持人类的感觉过程。在最低级别上,这种自动化可能由机械移动传感器的策略组成,以便进行扫描和观察。例如,商用ATC中使用的雷达通过以固定模式扫描天空来获取飞机上的信息,但是在军事ATC中,雷达可能会根据检测到的目标“锁定”。人造视觉和触觉传感器也可以与工业机器人配合使用,以允许其找到并抓住物体,从而提供有关该物体的信息。在此阶段,自动化程度适中,可能涉及根据某些标准(例如优先级列表)来组织输入信息,并突出显示信息的某些部分。例如,用于空中交通管制员的“电子飞行带”可以按照处理的优先级列出飞机;并且可以突出显示在控制器的雷达显示屏上显示飞机的电子数据块(其本身代表一种早期的采集自动化形式),以指示特定飞机的潜在问题。请注意,组织和突出显示均保留原始信息(“原始”数据)的可见性。在自动化,过滤的这一阶段,如果操作更为复杂,则不一定是这种情况,在该阶段中,专门选择某些信息并引起操作员注意。突出显示和过滤可能导致不同的人为性能后果,如稍后在自动化可靠性讨论中所述。
B.分析自动化
信息分析的自动化涉及认知功能,例如工作记忆和推理过程。在较低的级别上,可以将算法应用于传入的数据,以允许随时间进行外推或预测。例如,预报员显示器已经开发出来了,可以显示邻近空域中另一架飞机的预计未来航向[20],[21]。还开发了趋势显示来用于过程控制(例如核电厂),其中开发了过程模型并用于显示工厂的当前状态和预期的未来状态[22]。在此阶段,更高级别的自动化涉及集成,集成即将多个输入变量组合为一个值。一个示例是使用具有紧急感知功能的显示器,例如以线条为背景的多边形[23]。ATC中信息分析自动化的另一个例子是会聚跑道显示辅助装置(CRDA),它消除了了控制器在思维上将一架飞机的进近路径投射到会聚跑道上另一架着陆点的需要[24]。在这两个示例中,信息集成均用于增强操作员的感知和认知。分析自动化的更复杂形式包括“信息管理器”,该信息管理器向用户提供上下文相关的数据摘要[45]。
C决策自动化
第三阶段,决策和行动选择,涉及从决策选择中进行选择。此阶段的自动化涉及机器决策制定人员对决策选项人工选择的不同程度的增加或替换,如表I之前所述。例如,专家系统设计为具有条件逻辑(即生产规则)以规定特定的决策选择如果存在特殊条件[25]。可以在医学[26],军事指挥与控制[27]和为避免恶劣天气而进行的飞行员的路线规划中找到示例[28] 与人类绩效的类似决策阶段一样,此类系统与推论(分析自动化)所涉及的系统有所不同,因为它们必须对决策过程的不同可能结果的成本和价值做出明确或隐含的假设,并且这些结果的性质不确定在一个概率世界中。由Sheridan [11]提出的原始分类法最好地定义了这一阶段的不同自动化水平,如表I所示,表I定义了一个连续体,该连续体从推荐行动路线的系统发展到执行这些路线的系统。例如,在比较提议和现有的决策自动化设计时,避免了飞机与地面的碰撞,当前的地面接近警告系统(GPWS)位于第4级,建议进行一次机动,但飞行员可以选择忽略它。但是,一个拟议的战斗机自动地面避碰(自动GCAS)系统是在第7级定义的,如果飞行员不这样做,该自动化将自动取得控制权[29]。
D.行动自动化
动作执行的最后阶段是指动作选择的实际执行。 该阶段的自动化涉及不同级别的机器执行动作的选择,并且通常代替人的手或声音。可以通过执行响应中的手动活动与自动活动的相对量来定义不同级别的动作自动化。例如,在复印机中,手动分类,自动分类,自动归类和自动装订表示用户可以选择的不同级别的动作自动化。 、ATC的一个更为复杂的例子是自动“越区切换”,在这种情况下,一旦控制器做出了决定,就可以通过一次按键自动将飞机的控制权从一个空域转移到另一个空域。在驾驶舱上,也正在考虑可以通过一次按键,而不是通过更耗时的手动数据输入,将从地面上行链路的飞行计划“自动加载”到飞机的飞行管理计算机中的系统[30]-[32]。 最后,动作自动化包括“代理”,该“代理”跟踪用户与计算机的交互并以适合上下文的方式自动执行某些子任务[45]。
E.自适应自动化
这些功能类型中任何一种的自动化级别在系统设计阶段都不需要固定。 取而代之的是,可以将自动化级别(甚至可能是类型)设计为根据操作使用过程中的情况需求而变化。依赖于上下文的自动化是自适应的自动化[33]-[35]。两个例子将说明这一概念。在防空系统中,“弹出式”武器交付序列的开始可能导致所有飞机防御措施的自动化程度较高[36]。自动化是自适应的,因为如果没有发生此关键事件,则不会调用该自动化或将其设置为较低级别。在另一个示例中,根据情况的时间紧急程度(例如,飞机离起飞的临界速度V1有多近),在发动机故障后继续或中止飞机起飞的决定可以自动将其降低到较高的水平。近年来,关于自适应自动化的大量实证研究已有报道[38]-[44]。但是,我们没有描述这项工作,因为它引起了许多复杂的辅助问题,对此的讨论会使我们偏离本文的主要目的。
我们概述的模型提供了一个框架,用于检查特定系统的自动化设计问题。框架如何使用? 我们提出了可以在流程图中捕获的一系列步骤和一个迭代过程(请参见图3)。第一步是要认识到自动化不是全有或全无,而是会因类型而异。 有人会问是否应该将自动化应用于信息获取,信息分析,决策选择或行动实施。 可以实现一类功能(例如,信息分析),功能的不同组合或所有四个功能域的自动化。
在设计的后续阶段,可以询问在每个功能域内应该应用哪种自动化级别。这个问题可能没有简单的答案,并且可能在预期收益和成本之间进行权衡。但是,我们提出的四维模型可以提供指导框架。 如图3所示,可以为每种自动化类型考虑多个自动化级别。 我们建议应该通过检查其相关的人员绩效后果来评估任何特定级别的自动化。 这些构成了自动化水平的主要评估标准。但是,人员绩效不是唯一重要的因素。次要评估标准包括自动化可靠性和决策/行动后果的成本2。这些评估标准还应用于评估特定自动化水平的可行性和适当性。 我们设想这些标准及其评估的应用构成了一个递归过程(见图3),可以将其作为迭代设计程序的一部分。 但是,我们强调指出,不应将模型视为静态公式或降低特定类型或级别的自动化的规定。 相反,当考虑与我们描述的主要和次要评估标准相结合时,该模型可以为自动化设计提供有原则的指导。
图3. 流程图显示了应用类型和级别的自动化模型。对于每种自动化类型(获取,分析,决策和操作),选择低(手动)和高(完全自动化)之间的自动化水平。此水平通过应用人类绩效后果的主要评估标准进行评估,并在必要时进行迭代调整如图所示。然后,还可以迭代地应用次级评估标准来调整自动化水平。然后针对所有四种自动化类型重复该过程。
我们提供了一些示例,在这些示例中,根据以下评估标准,建议为四种自动化类型或自动化阶段中的每一种都指定特定的自动化级别。这些建议是指自动化级别的适当上限,即最大值,但不一定是所需的级别。换句话说,我们建议可以将自动化设计为达到特定级别,但不要更高。但是设计人员可以根据需要选择一个低于此最大值的级别,尤其是在考虑了我们所讨论的评估标准以外的评估标准之后(例如,系统集成的简便性或成本)。自动化级别的下限也可以通过应用相同的评估标准来确定。可接受的系统性能可能需要一定程度的自动化。
A人员绩效后果:自动化设计的主要评估标准
在确定任何系统设计中的自动化类型和水平时,一个重要的考虑因素是评估在最终系统中对操作员绩效的影响(即实现自动化之后)。如图3所示,特定类型和级别的自动化是通过检查与人类绩效相关的后果来评估的。举个假想的例子,假设先前的研究表明(或建模预测)与手动操作相比,第4级自动化可增强人工和系统性能,但由于高于6级的自动化而降低了性能。应用我们的框架将确定自动化的下限和上限分别为4和6。然后,将根据第二评估标准,以反演方式再次评估该初始规范,并做出该范围内的最终选择(参见图3)。
在过去的二十年中,研究人员研究了人类与自动化系统交互的许多不同方面。这项研究包括理论分析,实验室实验,模拟和建模,现场研究以及对现实事件和事故的分析,发现自动化可以对人类绩效产生有利和不利的影响[1] – [10], [45] – [48]。 我们简要讨论了人类的四个绩效领域:精神工作量,态势感知,自满和技能下降。
1)精神工作量:证据表明,精心设计的信息自动化可以将操作员的精神工作量更改为适合要执行的系统任务的水平。在最简单的级别上,组织信息源(例如在优先级列表中)将帮助操作员选择与决策相关的信息。 数据摘要还可以通过消除耗时的搜索或通信操作来提供帮助。 如前所述,空中交通管制员雷达显示屏上的电子数据块取代了管制员与飞行员进行通信以确定飞机位置和高度的需求。其他有益的信息自动化操作包括突出显示和集成,其中将不同的信息源进行整理和呈现[10]。 驾驶舱预测器的显示还显示,通过增加有关邻近飞机的飞行路径的预测信息,飞行员的工作量减少了,危险检测性能也得到了提高[21]。 数据转换,例如信息的图形表示,也可能是有益的。已发现将原始数据转换并集成为与操作员的系统操作表示相匹配的形式(图形或其他形式)是一种有用的设计原则[49]。 一个很好的例子是座舱中的水平状态指示器,它为飞行员提供了图形显示的预计飞行计划和飞机的当前位置。它比座舱中的任何其他自动化系统都多,可以减少飞行员的工作量[50]。
这些结果不应解释为意味着自动化总是导致平衡的操作员工作量。 还发现了增加工作量的自动化实例[8],[50]。 这些主要涉及难以启动和使用自动化的系统,从而增加了认知工作量[51],并且如果需要大量数据输入,还会增加操作员的实际工作量。 这样的系统被称为实现“笨拙的”自动化[50]。 总的来说,自动化对精神工作量的影响已反映在提高人类生产力和效率方面的类似相似的自动化记录[52]。
除了不平衡的工作量外,其他人员绩效成本也与特定形式的自动化相关。 我们简要考虑三种成本。
2)态势感知:首先,决策功能的自动化可能会降低操作员对系统以及工作环境中某些动态特征的意识。当这些变化处于另一种代理(无论该代理是自动化还是另一个人)的控制之下时,与他们自己进行更改相比,人类往往不了解环境或系统状态的变化[53]-[56]。同样,如果决策辅助工具,专家系统或其他类型的决策自动化在动态环境中一致且重复地选择并执行决策选择,则操作员可能无法维持环境中信息源的良好“画面”,因为他或她没有积极参与评估导致决策的信息源。这可能发生在系统中,在这些系统中,操作员充当被动决策者,负责监视过程以确定何时进行干预以防止发生错误或事件[53]。请注意,即使使用信息分析自动化(例如数据集成)可以提高操作员的状况意识,也可能会产生这种成本。
3)自满:其次,如果自动化在执行决策选择方面是高度但不是完全可靠的,则操作员可能无法监控自动化及其信息源,因此无法检测到自动化失败的偶然时间[57],[58]。操作员从事多项任务,而监视自动化系统是操作员必须执行的唯一任务[58]。 监控中的自满效应最近已使用连接主义体系结构建模[59]:分析建议,计算能力反映了在手动控制和自动化下监控的差异学习机制。
如果过滤,预测或集成操作所基于的算法可靠但并非完全可靠,则信息分析的自动化也会导致自满。最近对模拟空对地瞄准任务的研究[60]发现,即使飞行员被告知提示并不完全可靠,但如果将提示错误地将注意力从目标移开,则提示的检测性能会较差。自动提示(注意指导)可能会使操作员对显示器的未提示区域的注意少于适当的情况[61]。因此,即使将自动化应用于信息获取和分析,而不仅仅是决策,也可以获得类似自满的效果。但是,不可靠的自动化的这种效果是否同样强烈地适用于信息处理的所有阶段,这一点尚不清楚。有证据表明,尽管信息自动化和决策自动化都可能导致自满,但后者对性能的影响更大。在决策辅助研究中,当自动化完全可靠时,两种形式的自动化都可以使性能同等地受益[62]。但是,当自动化不可靠时,与决策自动化仅提供不正确的状态信息时相比,决策自动化给出不可靠的建议所带来的性能损失要大得多。但是,这项研究是迄今为止唯一一项直接比较了自动化不同阶段自动化不可靠性的影响的研究。在我们的模型中,自动化不可靠性是否对自动化的所有四个阶段都具有类似的负面影响,这一问题需要进一步研究。
4)技能降级:第三,如果决策制定功能是通过自动化一致地执行的,则有时操作人员将不具备执行该功能的技能。认知心理学方面的大量研究表明,遗弃和技能衰退会随着废弃而发生[63]。自动化失败后,认知能力的下降可能尤其重要。一项对用于危险材料运动的远距离机械臂的人为控制的最新仿真研究发现,在自动化故障之后,与较高水平的决策自动化相比,其性能优于中等水平的决策自动化[53]。
这些潜在的成本(减少的情况意识,自满和技能下降)共同表明,高级自动化可能导致操作员表现出“环外”不熟悉[47]。如果系统发生故障,所有这三个漏洞源都可能对安全造成威胁。因此,必须设计自动化以确保不会发生这种潜在的人员绩效成本。除我们所讨论的领域外,还应检查人员绩效成本。但是,不会导致精神工作量不平衡,情境意识降低,自满或技能丧失减少的自动化可能会与其他最终影响系统性能的人员绩效问题相关联,包括模式混乱和操作员对自动化的低信任度[1] – [10] ],[45] – [48]。
通过考虑这些对人类绩效的影响,可以确定特定级别自动化的相对优点。但是,模型的完整应用还需要考虑其他标准。我们在这里考虑了另外两个辅助标准,自动化可靠性以及决策和行动结果的成本。
B.次要评估标准
1)自动化的可靠性:如果自动化不可靠,自动化对先前提到的操作员的精神工作量和情况感知的好处将难以保持。因此,确保高可靠性是应用自动化的关键评估标准。已经提出了几种评估可靠性的程序,包括故障和事件树分析[64]和各种软件可靠性分析方法[65]。这些技术的使用可能会有所帮助,只要谨慎地解释其结果即可。特别是,看起来像“硬数字”,例如.997的可靠性或100000小时的平均故障时间,必须对此持怀疑态度,因为这样的值表示平均值的估计,而所需的是平均值附近的方差,即 可能相当可观。在许多自动化系统中,软件的复杂性和规模也可能排除了对所有可能故障的全面测试,尤其是与与放置自动化子系统的现有系统进行交互而引起的故障[10]。此外,自动化可靠性不能总是简单地用概率术语来定义。失败的发生可能不是由于软件或硬件中的可预测的(基于统计意义的)故障,而是因为在给定的操作情况下无法满足设计人员在自动化中建模的假设[8]。
自动化可靠性是人类使用自动化系统的重要决定因素,因为它会影响人类的信任[66][67]。不可靠性降低了操作员的信任度,因此可能破坏自动化的潜在系统性能优势。自动化系统可能由于不信任而未得到充分利用或禁用,例如经常发出错误警报的警报系统[8]。信号检测分析[68]可用于确定警报阈值,该阈值平衡了及时检测的竞争要求(以采取有效措施),漏检率接近零(由于潜在的灾难性后果,例如碰撞)以及虚假警报率低[69]。为了确保警报的可靠性,还必须将警报反映真实危险事件的可能性最大化,即可以通过结合信号检测理论和贝叶斯统计[70]来检验。
如果可以使信息自动化非常可靠,那么可以证明追求很高水平的信息自动化是合理的。 当然,在许多情况下不能保证高可靠性。如上所述,由于传感器的不精确性或操作者优先级的变化,信息源的固有不确定性意味着始终存在自动化所使用的算法不适用于这些条件的条件。但是,只要操作员可以访问原始数据(例如,突出显示,但不过滤),并且操作员知道(校准为)不可靠程度,信息获取和分析自动化仍可以保持在较高水平。注意力将分配给原始信息[60],[71]
尽管存在许多高度可靠的信息自动化的示例,但仍在开发这种自动化的更为复杂的形式,其中将复杂算法应用于原始数据以预测未来事件。例如,座舱中的交通显示以及用于空中交通管制员的冲突预测工具都试图投影飞机的未来飞行路线。预测未来从本质上来说并不是绝对可靠的,特别是如果在足够长的时间内(例如,对于ATC冲突预测为20分钟)进行的话。需要做进一步的工作来不仅评估这些预测器系统基础算法的可靠性,而且还要评估其对原始数据中噪声的敏感性以及信息自动化不可靠对人类性能的影响。一些新兴的研究开始确定不可靠性影响或不影响人类绩效的条件。例如,最近的两项研究发现,当提供有关信息自动化偶尔出现的错误的反馈时,可以公平地对运营商对自动化的信任进行适当的校准,并且仍然可以实现信息自动化的好处[60],[ 71]。这表明,前面提到的决策自动化对过度信任的负面影响对于信息自动化而言可能不太明显。但是,如前所述,只有一项研究直接比较了信息和决策自动化[62]。因此,自动化不可靠性是否对自动化的后期阶段具有更大的负面影响这一问题需要进一步研究。
2)决策/行动成果的成本:到目前为止,我们的分析表明,高水平的自动化可能与降低态势感知,自满和技能下降的潜在成本相关。这并不是说对于决策和动作自动化不应考虑高度自动化。但是,为决策自动化评估适当的自动化水平需要额外考虑与决策和行动结果相关的成本。
如果操作不正确或不适当,则人工和自动化系统在大多数系统中采取的决策和相关操作的成本会有所不同。如果这些常规行动没有按计划进行,那么许多常规行动都会产生可预见的后果,而这些后果几乎没有成本。与决策结果相关的风险可以定义为错误成本乘以该错误概率。因此,对于风险相对较小的决策,即使存在完全的自动化故障,环外问题也不太可能产生很大影响。这样的决定是高级自动化的强有力的选择。实际上,如果人类操作员必须不断地参与制定这些相对简单的决策,那么他们可能会负担重重,以致无法执行其他更重要的功能。
请注意,在时间紧迫的情况下,如果操作员没有足够的时间来响应和采取适当的措施,高层选择和行动的自动化也可能是合理的。例如,如果在核电厂的反应堆中检测到某些严重问题,则自动降低控制杆,进入堆芯以关闭反应堆,无需任何人工干预。在这种情况下绕过操作员是合理的,因为操作员不能及时可靠地做出反应以避免事故。如前所述,当发动机故障发生在距离临界V1速度太近而无法采取适当飞行员操作的时间时,自动中止或继续起飞飞机的决定将是另一个合格的例子[37],而如果战斗机飞机即将撞向地面,则采取控制飞机的决定[29]。
在操作员有时间响应的情况下,对于涉及高风险的决策,也应考虑使用高级自动化。在这种情况下,不良后果的成本定义了确定适当自动化水平的主要评估标准。我们开始撰写本文时所涉及的麻醉学,防空和股票市场的例子都涉及高成本决策。系统设计人员当然可以考虑在此类系统的中低级别之上执行决策自动化,例如,在表I中级别6或更高级别上,其中计算机系统具有决策自主权。如果在自动化失败的情况下不需要操作员干预或管理系统,这将是适当的。实际上,在这种情况下,甚至完全自动化(级别10)也可以证明是合理的3。但是,如果人类操作员从未在异常情况下期望接管控制权,则我们的分析表明,由于与这种自动化相关的有据可查的人员绩效成本,高层决策自动化可能不适合。然后,举证责任应落在设计师身上,以表明他们的设计不会导致我们已经讨论过的失去态势感知,自满和技能丧失的问题。
系统设计人员可能会反对这样的建议,即对于高风险情况,决策自动化不应超过中等水平,因为如果可以使信息自动化高度可靠,那么决策自动化也可以,因此为什么不实施高层自动化这个功能呢?答案是,尽管可以将决策辅助系统设计为在许多已知条件下都高度可靠,但现实世界的“嘈杂”,运行条件的计划外变化,其他系统组件或操作员,系统的意外或不稳定行为故障等,以及预测未来的固有不可靠性,将意味着始终存在一系列条件,在这些条件下,自动化将做出错误的决定。如果在这种系统故障的情况下,要求操作员进行干预并挽救情况,那么环外陌生问题可能会阻止操作员成功或及时进行干预[8],[47],[55]。
最后,应注意高风险功能的决策自动化和动作自动化维度之间的相互依赖性。可以将系统设计为具有高级决策自动化功能,在这种系统中,决策选择无需人工干预或否决权即可。例如,当前空中交通管制员向飞行员发出口头许可,该飞行员确认并随后执行与许可相一致的飞行机动。 然而,随着飞机与ATC之间双向电子数据链路通信的发展,许可(其本身可以是计算机的选择)可以上行并自动加载到飞机的飞行管理系统(FMS)中。然后飞机无需飞行员干预即可执行机动。但是,如果错误或不正确决策的后果很大,则明智的做法是要求动作自动化级别足够低,以使飞行员执行(自动化)决策选择(即,主动按下“将拟议的飞行计划加载到FMS中)。为飞行员提供机会来审查决策选择并强制采取有意识的公开行动,提供了一种“错误诱捕”机制,可以防止因计算机生成的解决方案在上下文上不合适而导致盲目默认。请注意,我们并不是在暗示一定程度的人为诱骗目的就需要采取人为行动。如果先前的决策选择阶段已高度自动化,则只需在最后一个行动实施阶段进行操作即可。在这种情况下,在操作阶段需要一些人的参与才能提供捕获错误的“最后机会”。
最近的研究检查了动作自动化的低水平和高水平对FMS的使用的相对影响[30],[31]。
在将数据链接的航班信息输入到航班管理计算机中时,使用较低级别的动作选择自动化,可以使决策自动化的错误程度更高,而通过按一个“接受”按钮即可完成数据输入。当然,错误捕获的优势必须与增加的工作负载以及自动化程度较低(手动)的数据输入的可能错误源平衡[32]。 当然,繁琐而笨拙的数据输入仍然是自动化的可行选择。但是要重申决策和动作自动化之间的联系,如果为后者选择了高度自动化,那么设计人员应该抵制对决策的高度自动化水平的诱惑。
C.应用实例
我们的人与自动化交互的多阶段模型可以结合评估标准应用到特定系统中,在本文中我们讨论了评估标准,其中三项是人的绩效后果,自动化可靠性以及决策/行动后果的成本 。为了进一步说明该模型的应用,我们根据先前在[10]中介绍的分析,简要考虑了其在未来ATC系统设计中的用途。
正在重新设计ATC系统,因为在接下来的20年中,空中交通量可能会翻一番,这对处理能力构成了重大威胁[72]。 一种选择是自由飞行[73],它允许用户偏爱的路线选择和自由操纵,以及旨在最小化ATC限制的其他更改[74]。 另一种方法是用额外的自动化功能来补充当前的地面ATC系统,以支持空中交通管制员管理日益密集的空域[10]。 这两种选择的要素都有可能实现,但是未来空域的日益复杂性将需要自动化工具来支持空中交通管制员和飞行员。规划,流量管理,冲突检测和解决等将需要自动化工具。
我们模型的应用为未来的ATC自动化提出了以下建议。 (我们再次强调,每条建议代表的是自动化的上限或最高水平,而不是要求的水平。)可以追求和实现较高水平的信息采集和分析自动化,因此可以证明结果系统是可靠的。该建议由图4中标尺左侧的箭头表示。这种自动化的几个示例(例如CRDA)已经存在,其他示例正在开发中。但是,对于决策和动作自动化,应仅在低风险情况下实现高级别(由图4中标中上方的箭头指示)。对于所有其他情况,决策自动化级别不应超过计算机的级别,该级别暗示(但不执行)控制器的首选替代方案(由下部箭头指示)。例如,在危险情况下,当必须发布爬升许可以解决密集空域中的交叉冲突时,冲突解决方案自动化可以为控制器提供替代方案,但在没有控制器参与的情况下不应选择其中一种。但是,如果在危险的情况下实施相对较高水平的决策自动化,则建议通过适当程度的动作自动化来保留一定程度的人为行动。如前所述,这允许最后阶段的错误捕获。此建议由图4中最右边的箭头指示。
图4. 未来ATC系统的推荐类型和级别,与三个评估标准相一致,即对人类绩效的影响,自动化可靠性和行动成本。
5替代,限制和扩展
在结束之前,我们简要地考虑两种实现自动化的方法,并讨论我们框架的一些局限性和扩展性。我们的方法的一种替代方法是使一个人能做到的一切都自动化。这可能是一个可行的选择,并且在某种程度上一直是迄今为止已自动化的大多数系统使用的默认策略,这通常是因为提高效率或降低成本是自动化的主要推动力。但是,这种策略的问题在于,操作员会面临设计人员艰难的,昂贵的或无法实现自动化的功能(直到聪明的设计师出现)。因此,这种方法根据自动化来定义操作员的角色和职责[8]。设计人员可使每个子系统实现自动化,从而为该子系统带来经济利益,并让操作员来管理其余子系统。技术能力或低成本是实现自动化的正当理由,因为在最终系统中不会对人员绩效产生不利影响,但并非总是如此。子系统优化的总和通常不会导致整个系统的优化。第二种替代方法是使用任务分配方法来匹配人机功能,如Fitts列表方法[75]。也就是说,应该由机器更好地执行的任务应该是自动化的,而人类做得更好的任务则不应自动化。不幸的是,尽管功能分配方法在原则上是有用的,但事实证明,在实践中很难使用Fitts List之类的程序来确定系统中应自动执行哪些功能[76]。
还应注意我们的模型的自动化类型和水平的某些限制。首先,虽然我们将Sheridan的10个自动化级别[11]用于决策自动化,但我们没有明确指定其他类型的自动化(例如信息自动化)的级别数。一个原因是,尽管有大量研究指出了信息的好处自动化与不自动化(例如,在CDTI的预测器显示中,请参见[20],[21]),目前尚没有明确的经验工作可以明确比较不同水平自动化对信息采集和分析对人类绩效的影响。另一个原因是,任何提议的分类法都可能被信息集成和表示方法的技术发展所取代,因此需要指定新的级别。其次,在将人员绩效收益和成本作为确定适当类型和水平的自动化的评估标准时,我们没有讨论如何权衡相对收益和成本。平衡的心理工作量(在特定的自动化水平上)的收益是否应该比降低态势感知或自满的可能性增加的代价所抵消呢?我们在本文中讨论过的以及未在本文中讨论过的人员绩效成本的相对权重是多少?同样,在我们列出的几个次级评估标准中,哪个是最重要的,例如自动化可靠性,行动成本,系统集成的难易程度,效率/安全性的权衡,制造和运营成本以及责任?这些都是棘手的问题,没有简单的答案。当然,作为定性模型,我们的方法旨在提供一种设计框架,而不是一组定量方法。尽管如此,一种前进的方法可能是研究将模型正式化的可能性。更一般地,希望有可以为人机系统自动化设计提供指导的定量模型[77]。最近已经提出了几种人与自动化交互的计算模型,包括基于期望值统计的模型[37],[78],任务负荷模型[79],认知系统模型[80]和基于模型的模型。 在状态转换网络上[81](有关这些模型的最新评论,请参见[82])。 随着这些模型和相关模型的成熟和验证,有可能通过在此处提供的定量分析补充定性分析来改善自动化设计。
自动化设计不是一门精确的科学。但是,它也不属于创意艺术领域,因为成功的设计取决于个人创意设计师的视野和才华。(尽管这种素质肯定可以帮助自动化系统的“外观”和适销性-参见[83])。相反,自动化设计可以由我们提出的人与自动化交互作用的四个阶段模型以及对若干评估标准的考虑来指导。我们并不是说我们的模型提供了全面的设计原理,而是简单的指南。该模型可以用作考虑在特定系统中应实现哪种类型和级别的自动化的起点。该模型还提供了一个框架,可以在其中探索与自动化设计相关的重要问题。最终,成功的自动化设计将取决于这些问题和其他问题的令人满意的解决方案。