Steam都认可的游戏评分体系，在国内这家运营十年的平台上实现了 / 开普饭

让游戏评分回归理性。文/菲斯喵参看媒体评分和玩家众评，是为了快速消解掉自己对于某款产品综合素质的不确定性。可在有些时候，那些精确到小数位的数字，不仅缺乏足够的说服力，反而牵扯出更大的迷惑与争议。就像游戏媒体 IGN，它的影响力覆盖全球，然而在打分上，时常因为给多给少落入争议。比如，测评员因为没弄懂游戏模式而给《生化危机2 重制版》打出的8.8分，引来了《皇牌空战7》制作人的质疑；给《死亡搁浅》投去的6.8分，让人们大呼「IGN 跌落神坛」；给《宝可梦：剑盾》打出的9.3分，又一次激活了「Too Much Water」这个老梗；给《莎木3》评定的5.9分，则让玩家解读出权威媒体的傲慢、无知以及对话语权的专横。而在游戏评分的另一端，众评参与者也在进行着品头论足，但由集体声音汇聚而来的态度，并不见得能够客观反映某部作品的综合素质。例如在众评网站 Metacritic 中，极端评分的荒诞闹剧便时常上演。远的不提，就拿前阵子登上 PC 端的《荒野大镖客2》来说，它那不及格的用户评价分，所承载的更多是人们对于技术问题的愤怒和不满，而非完全指向游戏的综合质量。

「大表哥2」PC 版在 M 站上的用户评分仅有4.5分如此看来，媒体评分与玩家众评都存在着波动性与反差面，前者往往受参评人员的个体偏差影响，后者容易被偶发因素所误导，这使得两大群体各自输出的分数，总会出现参考价值失灵的状况。那么，该如何避免评分公信力丧失，甚至于减少个体偏差和场外因素对评分客观性的干扰呢？一家经营超过10年的老牌应用商店，试图通过一套融合专业测评与众评两方优势的评分体系，来应对手游评分中所出现的「不专业」与「不理智」的现象。老牌应用商店重构自家评分体系构建新评分体系的10年老店，是豌豆荚。这个应用分发领域中的老牌劲旅，诞生于2009年，凭着先期进场和风格清新等优势，上线不到三年便累计安装量超过1.5亿次。在与内容分发相关的服务中，它最具代表性的尝试，或许是每周一期的「豌豆荚设计奖」。从2018年8月份开始，豌豆荚保持周更的内容服务又多了一项，即「豌豆荚专业评分」。这项内容相对玩家自主评分而存在，并且也是该平台目前主推的游戏评分体系，而测评打分的对象主要涵盖经典手游、独立游戏和新热作品。

豌豆荚专业评分第59期最高分作品你可以把「豌豆荚专业评分」类比为电影评分中的影评人系统。因此在这个体系之下，对游戏品质做出判断和量化的群体，则是由垂直媒体、自媒体、游戏开发者、主播、UP主以及资深玩家等构成的「专业评审团」。那么打分流程如何？平台方挑选出游戏后，评审团成员则在总分10分，保留小数点后一位的给分制度下，依据各自的实际体验、游戏经验、知识体系和评价维度，输出评分和评论。豌豆荚不干预打分与评论，全部收录后，通过自建公式推算出某部作品的最终评分。

测评内容的呈现平台方告诉葡萄君：「专业评分主要针对游戏的综合品质进行评价，而不是拆分游戏维度进行点评。我们认为某一个维度的优劣难以体现游戏品质的全貌，甚至于有些游戏只有某个维度特别突出而其他维度较弱，但这样也不妨碍它成为一个好游戏。」豌豆荚专业评分这一套体系，几乎与Metacritic、GameRankings等网站所采用的收录型评分类似。有所不同的是，彼处的收录评分的运作模式基于各家媒体被动提供评分，而此处收录评分的流程则建立在主动模式之上：平台方主动推荐游戏，评审团主动参与评价。还有一点异同表现在评分样本的差距上。以 Metacritic 站为例，该站收录一款游戏的媒体评分，通常信源数量多达40、50家；而豌豆荚专业评分现阶段的数据样本相对还比较有限，每期参与测评的成员数量不少于20个。不过，平台方仍在扩大评审团的规模，据其表示，「我们现在合作的评审达到了80+，但总数量还在不断增加，每月平均会有3-4家新的伙伴加入专业评审团。」

每次参与测评的专业评审团成员名单并不固定可以说，专业评分的体系化和权威化，并非一朝一夕，它需要足够长的时间去沉淀。而豌豆荚在评分体系规范化与规模化这方面，已经花了一年多时间。据了解，截止到2019年12月20日，豌豆荚专业评分已经推出68期，收录了超过500款游戏的评分和评论。在一边倒的众评中发出专业呼声用户总有参看评分的需求，但在目前的手游市场中，相对客观、全面和专业性的手游评分不可多见。因此豌豆荚重构评分体系的行为，多少是在填补市场的空白。而在豌豆荚专业评分推出之前，该平台是以二元化的用户推荐制度，来反映游戏的受欢迎程度。这种收集意见的机制，泛用于Steam、WeGame等各大游戏平台，其评价成本低廉、效果直观。但在特定的事件背景下，它所量化而出的推荐率或好评度，往往与游戏的真实品质差之甚远。

该平台上的专业评分与玩家推荐度的呈现在玩家众评的评分环境中，一次活动事故，一次炸服事件，一次「打骨折」降价，一款无中文佳作的推出，都有可能招来大量「离题评价」，以至于情绪掩盖了某部作品的真实品质——这对游戏开发者是一种伤害，对其他玩家来说则是一种误导。豌豆荚此前也遇见过情绪化评分的负面影响，该平台方告诉葡萄君：「做专业评分的其中一个初衷，就在于我们意识到，玩家推荐度在我们的平台上同样存在着不理智不准确的评论情况。」所以在葡萄君的理解下，豌豆荚推行专业评分体系，是为了对抗玩家压倒性、情绪化打分的消极影响，减少不专业与不理智对评分参考价值的稀释。至于具体评价体系的搭建，平台方采用收录型评分而不是偏听一家之言的制度，则保证了主观性打分在经过加权推算后，尽量得出相对客观的结果。不过在平台方看来：「收录型评分是对用户自行打分体系的补充，双方不是对立的而是互补的关系。各自的价值体现在运营执行上的合理性，以及对平台用户的帮助上等。」豌豆荚提到的这点，让葡萄君联想到Steam平台对Metacritic媒体综合评分的认可和采用——通过专业评分来补全消费型评分的不足。

Steam有自己的好评率机制的同时，也引入了 M 站综合评分不过两种机制互为补全的关系，或许还牵涉到评论的文本。玩家输出的评分聚成片后，它大概能表现出大众对某部作品最直接的观感和接受程度；但落到具体的文本评论中，玩家的意见和感受则会比较模糊，也不成体系，你或许只能听到爽或者不爽的片面声音。而专业测评在本文上通常较为详尽、到位，可以让玩家更深入地了解某部作品的特性。考虑到玩家评分表态意义大于实际意义，豌豆荚平台现阶段是以专业评分体系为主。而说到评论文本，豌豆荚专业评论是以短评形式来加以呈现。之所以采用这种机制，或许是考虑到意见收集的成本控制问题。

葡萄君针对《迷室：往逝》的评价不过平台方对此给出的理由则落在两方面：「首先，长评的浏览效率较低，长篇大论很多时候也会造成前后逻辑不一，意见模糊，以及出现太多情感宣泄，给用户造成困扰；其次，短评会倒逼评审在有限的篇幅内高度提炼自己的观点与态度，从而输出一个有明确方向的评价，让用户快速了解到游戏最真实准确的信息，继而做出判断和下载决策。」如何保证评分的专业、客观和全面可以说，豌豆荚建立专业评分体系的初衷，包含了应对玩家评分不专业与不理性所带来的负面影响。那么问题在于，该体系在推行之后，平台方要如何对评分加以规范化，从而保证它的严谨、客观、公正和全面呢？豌豆荚方面表示，在现阶段，他们对于「专业」二字的理解，主要聚焦于参审人的身份属性上。因此，平台方立下了较高的准入门槛，「首先我们会严格挑选评审，比如在游戏行业内公信力强且原创内容质量高的媒体、有多年游戏开发经历的职业游戏制作人、对某些类型游戏有深入研究和体验的玩家等。」

这些人未必是某类玩家中最优秀的人群，但从其立场来看，他们不走极端，不必照顾其他用户的心情，相对抽离自我，同时也比普通玩家拥有更为丰富的游戏经验和系统的评价体系。把更多的媒体、开发者、相关从业人员以及资深玩家等都纳入进来，豌豆荚除了想给用户提供更多可参考的信源之外，其实也考虑到了评判角度的多元性。不过就参审人员的构成差异来看，如何尽量避免打分样本的倾向性与波动性，或许也是个难题。而平台方的对策在于：「我们会保障评审数量，同时也会对评委的权重有所估量。对于长期提供优质评论的评审，我们会适当调高他们的权重，反之当我们发现评委提供的评论较为低质以及有水军等倾向时，也会降低权重或者停止合作。」另外，对方还强调，豌豆荚专业评分纯粹由第三方提供，豌豆荚不会进行人为干预和修改。同时，为了保持专业评审团打分的客观性，平台方也不接受任何公关或商业合作。就葡萄君的观察来说，豌豆荚专业评分的体系化与规范化已经基本完成，它有较高的准入门槛；在评审权重上也有相应的考量；同时也会针对游戏的迭代进步，进行评分的更新。不过，它的评分体系依然存在不够成熟的地方，例如每一期的参审人数不固定，多少会造成评分的偏差和波动；再者就是，当评测样本较少的时候，用户很难从趋于笼统和同质化的评论中，获取有效信息。总而言之，豌豆荚专业评分体系还处在相对年轻的阶段，应该还有进一步成长的空间。呼吁理性评分的回归，价值何在近些年，游戏的边界模糊了，它的玩法与类型变得愈加复合和庞杂，于是评测的维度也随之发散，难以被细分化。此时，媒体评分的权威性不再被人迷信；而在众评机制尚且存在的环境中，由评分激起的恩恩怨怨，仍时常上演。麻烦当头，有些媒体干脆放弃打分，有些支持玩家自主打分的游戏平台，则推出新的机制，以求打破局面。Steam于今年上线了「反差评机制」，旨在通过人工来避免「差评轰炸」；TapTap则在今年10月份启动了「游戏事故保护」功能，想给开发者更多的舆论公平；而在不久前，Metacritic因为察觉到用户打分中的可疑行为，随后清理掉《死亡搁浅》上万条负面评价，此举顺势缩小了游戏的媒体评分与用户评分之间的差距。

删掉可疑评价后，《死亡搁浅》M 站用户评分从之前5.1回升至7.4所以，并不止豌豆荚一家意识到玩家评分存在着弊大于利的一面。无论新平台还是老平台，在面对如今的评分环境时，都拿出了行动和思考，并试图将其中肆意崩腾的玩家情绪，引导至理性与客观的方向。有人呼吁不必过于聚焦分数，但站在坚持评分机制的立场上，豌豆荚认为一个相对客观、中立和理性的体系，终将给各方带来价值。对玩家而言，它是不可或缺的辅助工具，能够保证其对游戏的知情权，不因偶发因素影响其对游戏的判断和了解；对开发者而言，它则是一种保护和勉励，保护其基本舆情权益和劳动成果不因偶然因素遭到不公正对待；对平台方而言，它有助于其公信力与品牌影响力的提升。豌豆荚推行专业评分体系其实还有额外的布局，它是平台方一部分先期尝试，为了能够在未来，向手游行业（主要是CP）提供一套完整、全面的生态服务解决方案。不过在这一切正面价值实现之前，谁也无法保证豌豆荚目前的探索途径就是一定正确。而一个游戏评分即便如何公正客观，它要想达到大众认可的程度，终究需要时间的检验和影响力的沉淀。

Steam都认可的游戏评分体系，在国内这家运营十年的平台上实现了

相关推荐