抖音上的猫鼠博弈
这是半佛仙人的第420篇原创
1
现在是一个技术极度发达的年代,更是一个内容产业爆炸的年代。
在互联网的赋能下,我们所有人都可以在最短的时间内享受到最新鲜的内容服务,图文、视频、短视频、游戏,只有你不想要,没有你要不到。
但技术本身也是双刃剑,在我们享受到更多好内容的同时,也会有更多人在利用技术作恶。
工具不分善恶,在任何时候,只要可以获利,就会有人去钻研努力。
技术和商业越发达,黑灰产就越猖獗。
有光必有影。
面对信息差和技术碾压,普通人越来越难以和黑产对抗,因为对方玩儿的东西,你见都没见过。
同样的是,打击黑灰产,保护用户,将是内容平台的核心竞争力之一。
每一个内容平台都在研究如何对抗黑灰产,不仅仅是因为黑灰产会侵害平台的用户,更严重的是,当平台对内容失控的时候,在这个互联网文明底线越来越重要的年代,基本就代表了更严重的后果。
理由是苍白的,大家只看有没有做到。
很多人以为的黑灰产仅仅是在发布一些看起来比较弱智的骗局,那理解就太浅薄了。
现在,在话题广场,论坛,评论区,用户昵称,甚至私人对话,只要可以录入文字图片和语音的地方,就存在着失控的风险。
只要能传递信息,黑灰产就不会放过,过去是电线杆和公共厕所,现在就是所有媒介。
产品是简单的,人性是复杂的。
作为内容平台,只能用尽全力去保护用户,击败对方。
或者被对方击败。
2
抖音作为当前第一短视频平台,拥有最庞大的内容创作群体和内容消费群体。
在抖音上,内容创作者与内容消费者是可以直接交互的,这就代表在黑产眼中,这是流量富矿,并且操作空间巨大。
实际上,任何可以C2C的内容平台,都是可操作性的,但抖音流量最大。
前段时间,“假靳东”事件闹得沸沸扬扬,这就是一起典型的C2C黑灰产诈骗。
在实际业务中,C端用户上传的内容天然具有很大的不可控性,因为每个人的价值观和法治观念都是不同的,你没法把所有人的思想和操作统一,很多人就是喜欢在内容平台上上传大量的违禁内容。
论坛时代走过来的老网民都懂,黄图和小视频总是拦不住大家的散播。
从平台角度而言,这些都是风险,需要在保证正常用户体验的前提下,降低内容风险。
说白了就是,屏蔽风险内容,惩罚乱来的账号。
从平台角度来说,纵容这些乱来的账号和内容,属于找死。
从业务上必须要杀,但是从技术上如何杀,就是非常具有挑战的问题。
不是说可疑就要杀的,不能因为少部分人的放飞自我就影响多数人的体验,大家出来做生意,用户体验是第一要义。
针对内容风险关系,第一轮,也是最基础的,是敏感词屏蔽。
什么叫敏感词?可以简单理解为是大家在私下场合心领神会的说,但是在公开场合绝对不会说的那些东西。
在抖音平台上,敏感词出现在账号ID,个人简介,私信内容,视频封面等场合。
针对敏感词屏蔽,抖音的策略是自建词库+机器学习+人工审核。
策略包含敏感词收集策略,敏感词应用策略,敏感词处置策略。
在这里面,人工起到了很大的作用。
很多公司喜欢瞎吹人工智能,觉得人工智能能够解决一切问题,但现实业务中,人工智能对于语义分析是存在一定问题的。
大家日常对话的那些内容,不复杂,但是涉及到敏感词,汉语是博大精深的,使用各种谐音字,变体字,火星文,以及中间夹杂各种特殊符号和空格的模式,很容易就能绕过机器。
就例如微信这个词,可以变种成V信,VX,威,VV,V你懂得,威X信等等等等,在人眼中是一样的含义,但是在机器眼中截然不同,作为已经把算法玩到极致的抖音,非常清晰的知道机器的力量有穷尽,人的主动识别配合数据分析师定向收集,再同步模型,才可以实现ROI最大化。
而且敏感词这个东西,收集很重要,怎么用更重要。
一不小心就把好的坏的一起干掉了。
例如黄恐暴类的敏感词,标签对应的处置手段应该是直接屏蔽+封号或者直接禁止发布,不废话,直接干掉。
例如疑似推广号的标签,对应的处置手段应该是屏蔽+禁言,或者禁止发布,并给予警告。
例如命中了一些权重较弱的敏感词或者敏感字,对应的处置手段应该是转人工审核,再处置。
当然,具体的尺度,是不同厂家有不同的价值观。
在抖音这边,力度一直是比较大的,因为流量和影响力都太大,出一点点问题,都是大问题。
3
说完敏感词,必然绕不开的是图片和短视频,这是抖音的看家本领,也是最需要风险管控的部分。
图片和视频带有的问题主要是三类。
第一个是黄恐暴类内容,图片视频本身有问题。
针对这部分内容,抖音建立了庞大的敏感素材库,外加机器+人工的审核机制。
巨大部分敏感图片和问题视频是直接过不了审的,发都发不出去。
少部分有疑问,但是没法被机器判定为铁狼的内容,会转人工审核,无问题后再通过发布。
有一些是已经发出去但看的人比较少,人工还会做二次巡查,如果发现问题,第一时间下架或者限流。
还有一些发出去已经开始推送起量的,人工会再次介入核查,确保每一个能被推送出去的内容,都是尽可能不存在问题。
第二个是视频本身没黄恐暴负面问题,但是视频里面的东西有问题,例如视频里面就有VX:12345,点我看片等字迹或者水印。
这里除了第一条里面的相关规则之外,还要额外添加OCR环节。
要把视频里面所有可以转换为文字的信息(包括各种字体和字幕),全部都转化出来,然后由机器进行过滤。
过滤完之后,还要人工再过滤。
第三个是视频本身没有任何问题,但是视频带来的东西有问题,例如假靳东,靳东的祝福视频本身是正常的,但是被拿来用于诈骗,就非常的不正常。
针对视频正常的,但用途有问题的case,单靠机器讲白了没用。
因为机器只能核验要素,无法核验用途。
机器风控很重要,但其实只是表层,而且永远难以做到穷举,真的一刀切下去,会误伤大量的正常用户,这对于用户体验和公司的商业价值而言都是损失。
这时候,主力军就成了人工。
抖音投入了上万的审核人员做巡查,专门识别类似的风险内容,这块儿成本投入堪称恐怖。
但效果斐然,在4月份开始的仿冒名人专项打击中,已经封禁黑产作弊账号18万+,重置仿冒用户6W+,处理问题视频超过400万条。
这是成绩,成绩背后是成本。
4
机器加人工审核,能够解决问题吗?
严格来说,也不能。
因为内容风险治理不是简单的拼策略或者拼算法或者拼人力。
内容风险治理是一个系统性工程。
不是说你有个好的算法或者你有一堆人就可以解决问题。
因为问题是每天都在发生的,不可能无穷尽的去堆资源,那就不要做生意了。
所以有一个系统性工程,能够形成内容过滤的良性生态,才是从源头解决问题。
用更简单的话来说,单单是抖音自己在努力,其实是不够的,再多人力,也是有穷尽的。
再强大的机器算法,也是不可能不出错的,更何况很多风险内容本身就处在对与错的中间。
最好的方法,是让用户也参与进来,发挥大家的力量。
大家希望看到优质且无风险的内容,平台也希望干掉那些有危害并令人不适的内容,利益诉求是一致的。
普通人的力量,才是最强的力量。
针对让普通人也能参与,抖音一直以来坚持两步走。
一步是抖音大力做用户教育,让用户自己意识到有些视频存在问题,养成合理举报的习惯。
即使一个视频机器觉得没问题,人工审核觉得没问题,巡检觉得没问题,但不代表一定所有人都适宜,有些细节问题可能只有特定的人能看出来,他们的力量非常重要。
过去一年,抖音安全中心已经产出75期防诈反诈教育视频,累计播放量7.1亿次。
另一步就是完善举报机制。
用户自发来对问题视频进行举报,平台要做的不仅是认真且快速的审核处理,更要将相关案例做拆解,给相关的信息打上标签,优化机器模型。
机器的效率高于人,但机器依然要向人学习如何处理问题。
另外,仅仅是让用户参与,一起完善模型,还不够。
防守永远只是防守,风险管理也要考虑进攻。
抖音针对各种发布违规信息的账号,会反过来追溯其特征,是哪些人,在哪些机器,以什么ID,用什么IP,进行了批量操作。
黑灰产这年头也不是用手的,大家都是机器批量操作,不然还没轮到鱼上钩就先饿死了。
举个例子,假如抖音发现某类黄恐暴内容,大部分发布者和点赞者的IP都是相同的或者都是同一个号段的,那么不仅可以设置策略屏蔽这个IP,更可以直接报警。
互联网不是法外之地。
今年以来,抖音安全中心已经协助各地公安机关打击涉嫌诈骗、色情的黑灰产团队25个,刑事拘留87人。
这个数字单纯看起来不大,但这是一种震慑。
告诉所有黑产,管住自己的手,不然看看同行的下场。
有时候,震慑的威力要比直接出刀更加有效。
5
坦率地说,很多公司对于内容风控的价值和意义都是意识不到位的。
流量第一思想下,很多平台对于擦边球内容其实是睁一只眼闭一只眼的,毕竟是用户自发上传的东西,出了问题可以把锅甩给上传的用户。
但在这个过程中,好处是自己平台吃下了。
这种野蛮生长的逻辑,其实是目光短浅的。
因为在这个互联网文明大趋势的浪潮下,内容出现风险不是简单的挨骂,而是切实的会直接影响平台的生存。
因为互联网让内容的传播效率变快,那么必然风险的扩大也是同样的。
至于那点因为擦表球和默认黑灰产肆虐得到的流量,很有可能会被一把打的吐出来。
内容风控,将是这个年代所有内容平台的命门。
这是能不能持续做生意的问题,而不是赚多赚少的问题。
另外,很多公司虽然也知道这个重要,但往往先期投入不足。
风险管理是一个长期的系统工程,临时抱佛脚其实意义不大,找谁来都没办法解决体系缺失的问题。
模型要靠长期的算法迭代以及不停的数据积累来供养,先行者早就树立起了极强的风控壁垒。
这些壁垒需要大量的时间和资源投入,不是一朝一夕就有的,全部都是非卖品。
当大家都发展起来的时候,有时候不是比谁赚的更多。
而是比谁错的更少。
装傻装死一时爽,但问题不会因此消失,总要面对现实。
所以打击黑产,不能有侥幸心里,需要竭尽全力。
从过去,到现在,到将来。
都是如此。