又到年终考核季——美军对军官考评工作的反思：认识与防范能力评定陷阱 / 开普饭

●作者/李·A·埃文斯中校，博士 G·李·罗宾逊，博士

●译者/凡是非凡的非

●校对/Nangwa

●取材/《军事评论》2020年1 - 2月刊（美）

在正确的时间为正确的工作选择正确的人，是组织所面临的一个持久挑战。能力评定是选拔过程的一个基本组成部分，它在陆军中的使用几乎和陆军本身一样古老。一些早期的评估体系由一个团所属军官的名单组成，通过对每个军官进行评价，从“一个素质优异的人”到“勉强凑合-没有前途”，再到“众人一致评价不佳”。¹虽然我们当前的评估表格为能力评定技巧增加了一定科学性，但陆军的能力评定体系中始终存在的一个问题是，依赖考评者来判断下属在更高级别服役的潜力。

考评者需要做更好的准备来实施这些判断。虽然我们认识到对人事管理改革的呼声，以及在进行中更好地管理陆军人才的举措，但我们的目的不是为陆军评定体系的结构性改革的建议增加另一个杂音。²相反，我们关注的是考评者行使自由裁量权的过程，这是并且将继续作为能力评定的一个基本组成部分。我们的目标是认识到评定体系中固有的结构和认知偏差，并提供有关建议，以帮助高级考评人员更客观地评估他们的下属。

虽然我们认为这个主题的重要性是不言而喻的，但在陆军使用的评定体系中，教导考评人员其评估中可能存在的偏差尤其重要。该评定体系非常重视担任高级考评者的人。尽管评估表格包括来自考评人员的评判，有时也包括中级考评人员的评价，但由于可供评判军人档案的时间很少，众所周知高级考评人员的评定在晋升和选拔决策中占有最重的分量。³大多数岗位的工作都是高度依赖部队中其他成员的，这就要求考评人员估算和明确个人对集体成就的贡献。⁴

虽然一名军官的表现对他（或她）的晋升或选拔机会无疑是重要的，但该军官的高级考评人员是否有能力做出符合其表现水平的评估，对人才管理也至关重要。之前的研究表明，接触高水平的上级会使军官提早晋升到少校的可能性增加29%，这可能是因为高水平的上级善于在能力评定中展示下属人员的潜力。⁵培养考评人员对下属做出最合理的评判，并清晰地表述这些评判，对于培养精英化的陆军人才管理体系至关重要。

李·A·埃文斯中校，博士，美国陆军，为美国陆军军官学院（西点军校）数学科学系的助理教授及项目副主任。他曾获该校工程管理学士学位，乔治亚理工学院运筹学硕士学位，路易斯维尔大学工业工程博士学位。

G·李·罗宾逊，博士，美国陆军，为驻佐治亚州，萨凡纳亨特陆军机场第603航空支援营营长。他曾获西点军校国际关系学士学位，康奈尔大学公共管理硕士学位，乔治亚大学公共管理博士学位。

评价能力考评工具：

陆军部67号报表的结构性偏差

1922年，陆军引入了一个正式的能力考评体系，战争部行政长官办公室（WDAGO）711号报表，“效率报告”，两年后修订为WDAGO第67号报表，用以评价军官在其负责领域的身体状况、才智、领导力、个人品质以及对于陆军的总体价值。⁶从1922年开始，陆军对DA 67 号报表进行了十次修订；最近的调整是DA报表67-10系列（以下统称为DA Form67-10）。⁷军官考评表的每一次调整都采用了有些许差别的方法来划分群体，以便准确地反映军官的能力范围，覆盖表现最好的军官到那些不应该留在部队的军官。DAForm 67-10使用了一种硬性分级方法，在这种方法中，中校（含）以下军官的上级考评者可为其一半以内的下属，评价为“最胜任”。（为便于比较，第94-95页显示了1934年效率报告格式的一个例子，以突出展现陆军长期以来在探索和使用一种有效和公平的方法来比较军官的表现上所面临的挑战）。硬性分级考评体系在国防部和民事部门已经普及，因为如果没有硬性分级的情况下会出现评估失真的问题。⁸例如，在实施硬性分级能力考评制度之前，美国海军发现其大多数军官得分都在前1%。⁹从理论上讲，硬性分级减少了评分虚高，并为各种人事资源决策，包括晋升、培训和人员分配提供了手段。

然而，即使在最好的情况下（即没有认知偏差的情况下），体系结构也会在硬性分级的能力考评体系中导致错误。阿兰·莫尔曼（AllanMohrman）在他的论点中间接提到了这个问题，他认为硬性分级制度应该适用于足够大的对象群体，特别是超过50人的规模。¹⁰虽然他没有为这个数字提供数学上的支持，但他的论点依赖于大样本的统计质量。例如，如果从一个正态分布的总体中抽取一个合理的大样本，通常是n> 30，那么该样本的样本均值和标准差与总体的样本均值和标准差几乎无法区分。¹¹对于军官的表现和潜力而言，假设两者都是正态分布的，这表明更多的军官样本可更准确地反映陆军中的工作表现水平。虽然较大的样本通常可以很好地反映能力水平的分布，但它们直接与《陆军条例》(AR)623-3，考评报告体系，所引入的统筹概念冲突。

AR623-3将“统筹”定义为“提升评分链，使其超出高级考评人员对每个士兵的表现和潜力有充分了解的能力，以便为特定群体提供更高的评估保护。”¹²“统筹”一词在AR623-3的最新版本中出现了十多次，该版本指出“统筹”违背了评估体系的意图，并且削弱了士兵对其领导公平和公正的信任。¹³

拟制一个等级评定方案，对每个考评人员下辖的部属人数进行理论上最小化，允许考评人员对他们所评定的士兵的优缺点有一个直接的了解。在民事部门，一个组织结构的概念下，在一个考评人员的控制范围内，限制其部属的数量，也是一个普遍的做法。在全球范围的工业领域，员工人数在500人及以下的公司，经理与员工的比例约为1:4，员工人数在500人以上的公司为1:9。¹⁴

陆军有许多合理的原因，寻求减少一个考评人员的控制范围，该做法的一个经常被忽视的缺点是，尤其在小规模评定中，存在硬性分级体系导致的错误。根据AR623-3的规定，一名高级考评人员应该将“最胜任”的评估授予排名前三分之一的军官，且他们评定“最胜任”的数量必须少于他（她）所实施考评总人数的50%。

用一些简单的假设，例如军官随机分布于五级集合中，并且考评者已非常清楚一名部属是否为前三分之一的军官，超几何（hypergeo-metric）分布（解释见下）提供了对硬性分级能力考评体系数学缺陷的深入掌握。

超几何分布有3个参数：N、R和n。参数N表示总体中项目的数量，R表示“成功”的数量，n表示从总体中抽取的样本数。使用这个命名法，我们可以确定随机变量为X~Hypergeometric（N, R, n），并计算X（在我们的例子中，是考评集合中“最胜任”军官的数量）具有特定离散值的概率。

例如，如果某一军衔有5000名军官，按照既定标准，其中1667名被认为是前三分之一。我们可以计算在数量为n个规模的集合中，得到x名前三分之一军官的概率。如果我们假设5名军官的集合数量，我们将使用X~Hypergeometric (5000，1667，5)来计算在我们的考评集合中，得到准确的x名前三分之一军官的概率，记为P (X = x)。也就是说，P (X = 2)代表了，在赋值为5名军官的集合中确定2名前1/3军官的概率。事实上，P(X = 2)= 0.329，这意味着，假设军官们被随机分配到评级集合中，在5人的评级集合中，有32.9%的几率恰好有2名前三分之一的军官。因此，考虑到目前不超过50%的边界限制，考评人员只能给5名军官集合中2份“最胜任”的评定。

“拟制一个等级评定方案，使每个考评人员部属人数最小化，理想地允许考评人员对他们所评定的士兵的优缺点有一个直接的了解。”

评估者辨别2名表现位于前三分之一军官的能力受到认知偏差的影响，但从数学上讲，由于硬性分级的要求，可能迫使考评人员给予与下属能力水平不相称的评定。例如，如果一个考评人员有一个5人的集合，但是有2名以上的前三分之一的考评对象，至少有1名被考评军官将由于考评人员的边界限制，而获得不准确的评定。我们可以用∑[年误差]来计算这个预期年误差。为5名军官考评集合设公式标记，表示为∑[年误差]= ，P (X = i) = P (X = 3) + 2 P (X = 4) + 3 P (X = 5)。即，当有3名前三分之一军官在5人考评集合中，1名军官会被边界限制造成不利影响。当有4名前三分之一军官时，2名军官会受到边界限制的影响。当所有5名军官都是前三分之一军官时，有3名军官会受到边界限制的影响。

∑[年误差]= 0.259，意味着每5名军官的考评集合中，0.259人（或每4年每个考评集合中有1名军官）将得不到他们应得的最优评定。如果将5000名军官随机分入5人集合，甚至在考评人员完全清楚的条件下评定能力水平，并遵循AR623 - 3中的指导，以保留前三分之一军官的“最胜任”评定，我们可以预期每年将有259名军官得不到应有的评定。

解决结构性偏差

我们提出了三种应对结构性偏差的方法。首先，高级考评人员应遵循AR623-3的指导，将“最胜任”的评定留给最好的前三分之一军官。这需要敏锐的眼光，且如前文所述，这将导致在5名军官评定集合中，预计每四年就会出现1名军官的年误差。根据美国陆军人力资源司令部(U.S.Army Human Resources Command)的说法，“低于50%的限制意味着，根据军官的等级（军官等级评定）仅有平均37% - 42%的使用率”。¹⁵在这个相对较小的范围内，预期的年度误差存在显著差异。

图1 预期年误差随上级考评人员“最胜任”阈值的因变值

如果一名高级考评人员设定前37%的军官作为最“胜任”评定的边界阈值，那么预计年误差将达到0.340，而42%的边界将使预期年误差增加到0.469。从图1中可以看出，更高的获得“最胜任”评定军官的百分比阈值，会导致单调地提高预期的年误差。然而，如果上级考评人员将这些阈值设定低于其他考评人员，则会使他们的一些部属处于不利地位，而这些部属本应在其他考评集合中获得“最胜任”的评估。因此，一名上级考评者愿意与全军其他上级考评人员，以相似比例的“最胜任”评定，以确保他（她）的下属不被置于不利地位，但又足够低以防止各考评集合中“最胜任”的军官数量超过边界限制。

第二，我们建议高级评定人员要有多年的关注，并避免尽可能增加每年“最胜任”的评定。美国人力资源司令部表示，上级考评人员使用了37%- 42%的“最胜任”评定，这“表明上级考评人员正确地保留了缓冲”。¹⁶这一指导意见认为，任何低于50%的比例都构成缓冲。然而，图2（见第93页）所示，“最胜任”评定的最大允许百分比，在上级考评人员完成25个评定前，“最胜任”评定的最大允许百分比并不会保持在42%以上。例如，如果一位上级考评人员完成了8次评定，其中最多有3个“最胜任”评定，那么上级考评者的边界使用率为37.5%。如果上级考评人员只需保留1个优异评定的缓冲，边界使用率则降至25%。

将“最胜任”评定的数量最大化通常会导致第一类或第二类错误。在能力评定方面，第一类错误是错误地将一名军官认定为最胜任的军官，而第二类错误是没有将一名最胜任的军官如此评定出来。如果一名高级考评者有一个由5名军官组成的评估集合，并预先评定出2个最高评价这一最大值，那么在随机分配的军官集合中恰好有2个能力位前40%的军官的情况下，其准确概率只有34.6%。有2个以下能力前40%的军官的情况下，则有33.7%的几率，从而导致第一类错误，而在有2个以上能力前40%的军官时，则有31.7%的几率，导致第二类错误。高级考评人员的边界限制可能导致第二类错误，但第一类错误是由认知偏差或有意决定导致的。

图2. 上级考评人员最大化使用

“最胜任”评定与预留1名指标使用的概况

因为考评资料是累积的，所以一个将“最胜任”的评定授予一个不合格军官的有意决定，将会产生多重影响。我们通过计算预期的两年误差来分析这种影响。如果一个上级考评者计划最大限度地增加“最胜任”评定的数量，很可能超出40%这一标准，对于一个5人规模的集合，这将导致预期的年误差为0.415，以及预期的两年误差为0.830。然而，如果一个高级考评者可以使用前三分之一的标准来授予“最胜任”的评定，那么预期的年度误差将为0.259，两年误差将为0.416。

预期的两年错误不会是预期年度错误的两倍，原因是如果第一年的考评集合中只有1名前三分之一的军官，高级考评者可以在第二年授予多达3名“最胜任”的评定。类似地，如果第一年的考评集合中没有排名前三分之一的官员，上级考评者可以在第二年给予多达4名“最胜任”的评定。总而言之，通过克制每年尽量给予最高评定的冲动，并保持前三分之一的标准，上级考评人员可以减少近50%的二类错误。因此，由于最近的研究表明军官的资历如何影响他们在考评过程中得到的评定，教导军官保持多年的关注是尤其重要的。¹⁷

第三，与AR 623-3一致，我们建议高级考评人员制定评定方案，以为奖励最好的部属提供灵活性来。在讨论建立评定链时，AR623-3提供了总体指导，如指挥官评定指挥官，并且禁止了统筹的做法。然而，它给了各机构在每个阶段的开始拟制和发布他们的考评体系的空间。虽然所推荐的考评集合规模不能在非同类单位中推广，但各机构应构建起不会对每个层级军官不利的考评链。

例如，将我们的样本评级池从5名军官增加到10名军官，可以减少预期的年度误差和预期的两年误差。如前所述，以前三分之一军官值得“最佳”评定为标准，规模为5名军官考评集合的年度预期误差为0.259，两年预期误差为0.416。将考评集合的规模增加一倍至10名军官，同时保持前三分之一为最佳军官的门槛，预期的两年误差则降至0.364。由于预期的两年误差是针对10名军官集合的两年，我们可以将其除以2与5人集合的预期两年误差进行比较。将考评集合的规模从5增加一倍到10，从而导致第二类错误减少了56%。

“我们从评估中去除的偏差越多，在对大量候选人进行人才管理中遴选委员会就能在固有的艰难选择中表现更好。”

样表：1936美国陆军效率报告表

样表：1936年美国陆军效率报告表（续上）

评价考评者：认知偏差

正如上一节所证明的那样，DA表格67-10存在结构性偏差，这使得考评人员很难持续使最好的军官得到应有评定。除了这些结构性偏见之外，由于能力评定的自由裁量性，还存在认知偏差可能会影响上级考评人员的判断。我们关注于五种认知偏差，这些偏差可能会导致一名军官的能力表现，与其能力变为高级考评人员在考评报告中所述潜力之间存在差异。

当考评者在不经意的情况下做出与军官表现不符的鉴定时，就会产生认知偏差。因为考评者在评定中如何准确表现军官的潜力上有很大的裁定自由，认知偏差有可能影响他们在报告的叙述部分对士兵描述所持的喜好。

这些选择尤其重要，因为在晋升和遴选委员会中，恰好处于分隔线上下的军官之间，可能存在微小的才干差异。从曾在晋升委员会任职的军官那里，有传闻的例证支持这一点，但我们也看到在其他领域，初级和候补人选之间存在微小差异的经验支持。¹⁸由于遴选委员会没有多少时间审查档案和审议相对较少的信息，减少认知偏差的影响可以在查明和遴选最有潜力在更高级别服役的军官方面带来改变。¹⁹换句话说，我们从评估中去除的偏差越多，遴选委员会就能在人才管理中对大量候选人进行固有的艰难选择上做得更好。

认知偏差的一个关键点是它是无意的。评定一个人的能力表现无疑是复杂的。一个人的表现在多大程度上取决于他的才干，而在多大程度上取决于集体的影响效果？以及他们的能力表现与在不同条件下与不同战友完成类似任务的同仁相比如何？心理学家丹尼尔·卡尼曼(DanielKahneman)对“系统1”和“系统2”思维的见解，在很大程度上影响了我们对复杂的决策制定的理解。系统1思维通常指引我们的决定，因为它自动运作，并使我们很少或不费力气就能做出大多数决定。当面对更复杂的任务时，系统2思维使我们能够将注意力集中在更复杂的运算上。尽管我们倾向于认为，我们可在需要的时候由系统2把控，但卡尼曼认为，在面对复杂状况时，系统1经常会接管。²⁰

例如，如果问你认为六个月后总统的声望如何，你会使用什么系统？卡尼曼称，这是一个系统2任务，因为准确的答案需要一个人考虑当前和未来六个月之间可能影响总统声望的事件，并对这些事件发生的可能性做出判断。然而我们并没有进行这些复杂的计算，而是依靠系统1的思维，它将使用总统目前的声望来推测六个月后他的声望。

能力评定也有类似的过程。为了完成评估某人能力表现这一困难任务，我们会使用依赖于记忆中已存信息的捷径。系统1思维的好处是，它使我们能够依靠直觉来完成如此复杂的任务，但缺点是，这个过程会引起偏差。当面对复杂的能力评定时，我们的系统1思维可能会屈从于以下五个来源的偏差。我们越多意识到这些偏差，我们就越有能力放慢我们的系统1思维，使用一些系统2功能来抵消这些偏差。

光环效应。顾名思义，当我们用一个维度上的能力表现来影响我们对一个人在其他所有维度上的评价时，就会产生光环效应。光环效应的主要问题是，它减少了一个人展示其能力的机会，从而阻碍考评人员从不同角度准确地评估被评定者的能力表现。²¹在由单一考评人员对一个人进行多维度评定的体系中，考评人员特别容易受到光环效应的影响——正如我们的考评体系，以及陆军领导需求模型及其核心能力与特质。²²

光环效应可以是积极的，也可以是消极的。例如，一名军官，如果在能力特征方面表现出色，突出了自信和威严，那么他可能会在其他方面的能力和特质中享受到积极的光环效应。相反，一个缺乏自信和威严的军官可能会在其他能力和特点上遭受负面的光环效应。

第一印象错误。这种偏差源于最初的印象，有好有坏，可影响考评者的评定。与光环效应类似，初始印象错误的主要问题是，如果被考评人员的后续信息与对他们的最初印象相反，评价者可能会抑制或低估这些信息。²³当一个高级考评人员对大量的特定岗位或军衔进行评级，并且很少与每名个人进行互动时，这种效应会特别普遍。

类己效应。这种偏见源于一些考评人员倾向于在一个人的看法或背景等方面与评分者相似时给予他（她）有利的评价。²⁴最近的一些研究表明，相比其他职业，陆军可能尤其容易受到这种偏差的影响。一项针对陆军战争学院学生的研究发现，这部分人的开放性得分低于美国普通民众。²⁵开放性得分低的人的一个特点是，他们更喜欢熟悉而不是新奇；因此，较低的开放性得分，可能使得与考评者显著的不同的被考评人员获得不利的评定。其他研究表明，军校学员在创新认知品质（这与接纳新思想的意愿正相关）方面的得分低于同类普通大学的学生，而那些一年后就离开军校的学员在创新方面的得分高于留在军校的学员。²⁶

认知能力与选拔之间关系的研究，发现认知能力明显较高的军官在候选少校时（位同行前列）被选拔的几率低29%，在候选中校时被选几率低18%，并且选拔为营长的几率低32%。²⁷对这些结果的一种解释是，认知能力强的军官可能会成为“更差”的初级军官，因为与认知能力一般或较低的军官相比，他们不太热衷于顺从。根据这种认识，“类己效应”可能导致了这些结果。

趋中误差。当考评人员将大多数评级人员评定为平均或略高于平均分时，就会出现趋中误差。²⁸虽然军官评定报告有四部分，考评人员很少使用“称职”或“不称职”选项。虽然给太多的军官评分为“最胜任”会让一名考评人员“砸了招牌”，但给过多的军官评分为“很胜任”则不会有什么后果。

在评定出过多平均分而没有后果的情况下，评分虚高的可能性变得更大。²⁹做出称职或不称职评定会给考评人员带来额外的工作，因为更有可能与被考评人员发生人际冲突，或被考评人员申诉时需要提供能力质询文件。既然对那些不是“最胜任”的人的能力素质分级不存在任何后果，那么把某人评为“很胜任”要比使用较低的两个等级更容易。虽然我们的职业精神是对这种偏差的一种遏制，但我们之所以将其包含在本文讨论之中，是因为这种偏差是潜在的。

过程忽略。忽略过程的本质是在回忆事件时更注重高峰时期和近期性。为了说明这种效应，卡尼曼讲述了一个关于患者回忆结肠镜检查的研究。虽然手术过程并不影响患者的总体疼痛评价，但手术中感受最糟糕时刻和手术结束时的平均疼痛水平是总体疼痛评价的主要预测指标。

希望疼痛不是评分者在评估中回忆出的情绪，但一般原则适用于这种偏差如何影响评定。不同于采用系统2思维的过程要考虑受评者在一系列事件的表现，使用一个关键事件，如视察、训练演习或最近的训练活动，来影响高级考评者在评定中希望表达的印象则更为容易。

解决认知偏差

我们提出了三种方法来消除这些认知偏差。阅读本文并开始注意消除认知偏差的根源是第一步。虽然我们希望读者会发现这些信息有帮助，但我们认为特别重要的是，在专业军事培训中把关于这些偏差教育包括进来。虽然专业的军事培训课程经常涵盖委员会流程和趋势，但目前并不包括关于这些偏差的训练。我们认为，就像未来的营和旅指挥官接受的关于如何写好他们传略的培训一样，他们也应该接受关于考评人员偏差的训练，从而成为更合格的考评者。

其次，由于这些偏差的来源是一个体系，它有赖于单一考评者的评估，我们建议考评者从不同的来源征求意见，以帮助形成他们对被评者的评判。作者之一曾在担任营执行官时有运用这种技巧的经验。营长请作战官、指挥军士长、资深准尉和作者给六名连长排序。提交反馈后，作者将自己的建议与作战官的建议进行了比较，发现其对六名指挥官的评价正好相反。虽然意见的分歧可能不会总是如此明显，但对于考评人员来说，获得不同的意见以防止可能产生的认知偏差是有价值的。

第三，经常向下属反馈有助于消除偏差，尤其当考评人员意识到如上讨论的潜在偏差时。时常反馈可以促进对能力标准的认同，并提高下属对反馈的接受程度。³⁰这是许多领导者都在努力解决的问题。在2016年陆军领导中心对陆军领导班子的年度调查中，超过三分之一的受访者表示，他们的上司很少或从不花时间讨论他们如何完成工作，以及他们为提升能力应该做些什么。³¹

结论

现实中，陆军的能力评定体系是一个多年的鉴定，在高级考评人员间和他们所撰写的评价间容易产生差异。正如本文所述，存在着结构和认知上的偏差，这可能会影响军官的评定。这些偏差隐藏在在能力评定体系中我们寻求的精英管理原则之下。我们越了解这些偏差，就越能更好地应对它们的影响。

编者按：我们要鸣谢堪萨斯州，利文沃斯堡，艾克·斯克尔顿诸兵种研究图书馆的图书馆研究档案管理员拉塞尔·拉弗蒂和伊丽莎白·杜比森，感谢他们在查找陆军效率报告的早期版本以及在当时的官方技术手册中对它们的参考。

又到年终考核季——美军对军官考评工作的反思：认识与防范能力评定陷阱

相关推荐