Steam都认可的游戏评分体系,在国内这家运营十年的平台上实现了
让游戏评分回归理性。文/菲斯喵参看媒体评分和玩家众评,是为了快速消解掉自己对于某款产品综合素质的不确定性。可在有些时候,那些精确到小数位的数字,不仅缺乏足够的说服力,反而牵扯出更大的迷惑与争议。就像游戏媒体 IGN,它的影响力覆盖全球,然而在打分上,时常因为给多给少落入争议。比如,测评员因为没弄懂游戏模式而给《生化危机2 重制版》打出的8.8分,引来了《皇牌空战7》制作人的质疑;给《死亡搁浅》投去的6.8分,让人们大呼「IGN 跌落神坛」;给《宝可梦:剑盾》打出的9.3分,又一次激活了「Too Much Water」这个老梗;给《莎木3》评定的5.9分,则让玩家解读出权威媒体的傲慢、无知以及对话语权的专横。而在游戏评分的另一端,众评参与者也在进行着品头论足,但由集体声音汇聚而来的态度,并不见得能够客观反映某部作品的综合素质。例如在众评网站 Metacritic 中,极端评分的荒诞闹剧便时常上演。远的不提,就拿前阵子登上 PC 端的《荒野大镖客2》来说,它那不及格的用户评价分,所承载的更多是人们对于技术问题的愤怒和不满,而非完全指向游戏的综合质量。
「大表哥2」PC 版在 M 站上的用户评分仅有4.5分如此看来,媒体评分与玩家众评都存在着波动性与反差面,前者往往受参评人员的个体偏差影响,后者容易被偶发因素所误导,这使得两大群体各自输出的分数,总会出现参考价值失灵的状况。那么,该如何避免评分公信力丧失,甚至于减少个体偏差和场外因素对评分客观性的干扰呢?一家经营超过10年的老牌应用商店,试图通过一套融合专业测评与众评两方优势的评分体系,来应对手游评分中所出现的「不专业」与「不理智」的现象。老牌应用商店重构自家评分体系构建新评分体系的10年老店,是豌豆荚。这个应用分发领域中的老牌劲旅,诞生于2009年,凭着先期进场和风格清新等优势,上线不到三年便累计安装量超过1.5亿次。在与内容分发相关的服务中,它最具代表性的尝试,或许是每周一期的「豌豆荚设计奖」。从2018年8月份开始,豌豆荚保持周更的内容服务又多了一项,即「豌豆荚专业评分」。这项内容相对玩家自主评分而存在,并且也是该平台目前主推的游戏评分体系,而测评打分的对象主要涵盖经典手游、独立游戏和新热作品。
豌豆荚专业评分第59期最高分作品你可以把「豌豆荚专业评分」类比为电影评分中的影评人系统。因此在这个体系之下,对游戏品质做出判断和量化的群体,则是由垂直媒体、自媒体、游戏开发者、主播、UP主以及资深玩家等构成的「专业评审团」。那么打分流程如何?平台方挑选出游戏后,评审团成员则在总分10分,保留小数点后一位的给分制度下,依据各自的实际体验、游戏经验、知识体系和评价维度,输出评分和评论。豌豆荚不干预打分与评论,全部收录后,通过自建公式推算出某部作品的最终评分。
测评内容的呈现平台方告诉葡萄君:「专业评分主要针对游戏的综合品质进行评价,而不是拆分游戏维度进行点评。我们认为某一个维度的优劣难以体现游戏品质的全貌,甚至于有些游戏只有某个维度特别突出而其他维度较弱,但这样也不妨碍它成为一个好游戏。」豌豆荚专业评分这一套体系,几乎与Metacritic、GameRankings等网站所采用的收录型评分类似。有所不同的是,彼处的收录评分的运作模式基于各家媒体被动提供评分,而此处收录评分的流程则建立在主动模式之上:平台方主动推荐游戏,评审团主动参与评价。还有一点异同表现在评分样本的差距上。以 Metacritic 站为例,该站收录一款游戏的媒体评分,通常信源数量多达40、50家;而豌豆荚专业评分现阶段的数据样本相对还比较有限,每期参与测评的成员数量不少于20个。不过,平台方仍在扩大评审团的规模,据其表示,「我们现在合作的评审达到了80+,但总数量还在不断增加,每月平均会有3-4家新的伙伴加入专业评审团。」
每次参与测评的专业评审团成员名单并不固定可以说,专业评分的体系化和权威化,并非一朝一夕,它需要足够长的时间去沉淀。而豌豆荚在评分体系规范化与规模化这方面,已经花了一年多时间。据了解,截止到2019年12月20日,豌豆荚专业评分已经推出68期,收录了超过500款游戏的评分和评论。在一边倒的众评中发出专业呼声用户总有参看评分的需求,但在目前的手游市场中,相对客观、全面和专业性的手游评分不可多见。因此豌豆荚重构评分体系的行为,多少是在填补市场的空白。而在豌豆荚专业评分推出之前,该平台是以二元化的用户推荐制度,来反映游戏的受欢迎程度。这种收集意见的机制,泛用于Steam、WeGame等各大游戏平台,其评价成本低廉、效果直观。但在特定的事件背景下,它所量化而出的推荐率或好评度,往往与游戏的真实品质差之甚远。
该平台上的专业评分与玩家推荐度的呈现在玩家众评的评分环境中,一次活动事故,一次炸服事件,一次「打骨折」降价,一款无中文佳作的推出,都有可能招来大量「离题评价」,以至于情绪掩盖了某部作品的真实品质——这对游戏开发者是一种伤害,对其他玩家来说则是一种误导。豌豆荚此前也遇见过情绪化评分的负面影响,该平台方告诉葡萄君:「做专业评分的其中一个初衷,就在于我们意识到,玩家推荐度在我们的平台上同样存在着不理智不准确的评论情况。」所以在葡萄君的理解下,豌豆荚推行专业评分体系,是为了对抗玩家压倒性、情绪化打分的消极影响,减少不专业与不理智对评分参考价值的稀释。至于具体评价体系的搭建,平台方采用收录型评分而不是偏听一家之言的制度,则保证了主观性打分在经过加权推算后,尽量得出相对客观的结果。不过在平台方看来:「收录型评分是对用户自行打分体系的补充,双方不是对立的而是互补的关系。各自的价值体现在运营执行上的合理性,以及对平台用户的帮助上等。」豌豆荚提到的这点,让葡萄君联想到Steam平台对Metacritic媒体综合评分的认可和采用——通过专业评分来补全消费型评分的不足。
Steam有自己的好评率机制的同时,也引入了 M 站综合评分不过两种机制互为补全的关系,或许还牵涉到评论的文本。玩家输出的评分聚成片后,它大概能表现出大众对某部作品最直接的观感和接受程度;但落到具体的文本评论中,玩家的意见和感受则会比较模糊,也不成体系,你或许只能听到爽或者不爽的片面声音。而专业测评在本文上通常较为详尽、到位,可以让玩家更深入地了解某部作品的特性。考虑到玩家评分表态意义大于实际意义,豌豆荚平台现阶段是以专业评分体系为主。而说到评论文本,豌豆荚专业评论是以短评形式来加以呈现。之所以采用这种机制,或许是考虑到意见收集的成本控制问题。
葡萄君针对《迷室:往逝》的评价不过平台方对此给出的理由则落在两方面:「首先,长评的浏览效率较低,长篇大论很多时候也会造成前后逻辑不一,意见模糊,以及出现太多情感宣泄,给用户造成困扰;其次,短评会倒逼评审在有限的篇幅内高度提炼自己的观点与态度,从而输出一个有明确方向的评价,让用户快速了解到游戏最真实准确的信息,继而做出判断和下载决策。」如何保证评分的专业、客观和全面可以说,豌豆荚建立专业评分体系的初衷,包含了应对玩家评分不专业与不理性所带来的负面影响。那么问题在于,该体系在推行之后,平台方要如何对评分加以规范化,从而保证它的严谨、客观、公正和全面呢?豌豆荚方面表示,在现阶段,他们对于「专业」二字的理解,主要聚焦于参审人的身份属性上。因此,平台方立下了较高的准入门槛,「首先我们会严格挑选评审,比如在游戏行业内公信力强且原创内容质量高的媒体、有多年游戏开发经历的职业游戏制作人、对某些类型游戏有深入研究和体验的玩家等。」
这些人未必是某类玩家中最优秀的人群,但从其立场来看,他们不走极端,不必照顾其他用户的心情,相对抽离自我,同时也比普通玩家拥有更为丰富的游戏经验和系统的评价体系。把更多的媒体、开发者、相关从业人员以及资深玩家等都纳入进来,豌豆荚除了想给用户提供更多可参考的信源之外,其实也考虑到了评判角度的多元性。不过就参审人员的构成差异来看,如何尽量避免打分样本的倾向性与波动性,或许也是个难题。而平台方的对策在于:「我们会保障评审数量,同时也会对评委的权重有所估量。对于长期提供优质评论的评审,我们会适当调高他们的权重,反之当我们发现评委提供的评论较为低质以及有水军等倾向时,也会降低权重或者停止合作。」另外,对方还强调,豌豆荚专业评分纯粹由第三方提供,豌豆荚不会进行人为干预和修改。同时,为了保持专业评审团打分的客观性,平台方也不接受任何公关或商业合作。就葡萄君的观察来说,豌豆荚专业评分的体系化与规范化已经基本完成,它有较高的准入门槛;在评审权重上也有相应的考量;同时也会针对游戏的迭代进步,进行评分的更新。不过,它的评分体系依然存在不够成熟的地方,例如每一期的参审人数不固定,多少会造成评分的偏差和波动;再者就是,当评测样本较少的时候,用户很难从趋于笼统和同质化的评论中,获取有效信息。总而言之,豌豆荚专业评分体系还处在相对年轻的阶段,应该还有进一步成长的空间。呼吁理性评分的回归,价值何在近些年,游戏的边界模糊了,它的玩法与类型变得愈加复合和庞杂,于是评测的维度也随之发散,难以被细分化。此时,媒体评分的权威性不再被人迷信;而在众评机制尚且存在的环境中,由评分激起的恩恩怨怨,仍时常上演。麻烦当头,有些媒体干脆放弃打分,有些支持玩家自主打分的游戏平台,则推出新的机制,以求打破局面。Steam于今年上线了「反差评机制」,旨在通过人工来避免「差评轰炸」;TapTap则在今年10月份启动了「游戏事故保护」功能,想给开发者更多的舆论公平;而在不久前,Metacritic因为察觉到用户打分中的可疑行为,随后清理掉《死亡搁浅》上万条负面评价,此举顺势缩小了游戏的媒体评分与用户评分之间的差距。
删掉可疑评价后,《死亡搁浅》M 站用户评分从之前5.1回升至7.4所以,并不止豌豆荚一家意识到玩家评分存在着弊大于利的一面。无论新平台还是老平台,在面对如今的评分环境时,都拿出了行动和思考,并试图将其中肆意崩腾的玩家情绪,引导至理性与客观的方向。有人呼吁不必过于聚焦分数,但站在坚持评分机制的立场上,豌豆荚认为一个相对客观、中立和理性的体系,终将给各方带来价值。对玩家而言,它是不可或缺的辅助工具,能够保证其对游戏的知情权,不因偶发因素影响其对游戏的判断和了解;对开发者而言,它则是一种保护和勉励,保护其基本舆情权益和劳动成果不因偶然因素遭到不公正对待;对平台方而言,它有助于其公信力与品牌影响力的提升。豌豆荚推行专业评分体系其实还有额外的布局,它是平台方一部分先期尝试,为了能够在未来,向手游行业(主要是CP)提供一套完整、全面的生态服务解决方案。不过在这一切正面价值实现之前,谁也无法保证豌豆荚目前的探索途径就是一定正确。而一个游戏评分即便如何公正客观,它要想达到大众认可的程度,终究需要时间的检验和影响力的沉淀。