抖音上的猫鼠博弈 / 开普饭

这是半佛仙人的第420篇原创

现在是一个技术极度发达的年代，更是一个内容产业爆炸的年代。

在互联网的赋能下，我们所有人都可以在最短的时间内享受到最新鲜的内容服务，图文、视频、短视频、游戏，只有你不想要，没有你要不到。

但技术本身也是双刃剑，在我们享受到更多好内容的同时，也会有更多人在利用技术作恶。

工具不分善恶，在任何时候，只要可以获利，就会有人去钻研努力。

技术和商业越发达，黑灰产就越猖獗。

有光必有影。

面对信息差和技术碾压，普通人越来越难以和黑产对抗，因为对方玩儿的东西，你见都没见过。

同样的是，打击黑灰产，保护用户，将是内容平台的核心竞争力之一。

每一个内容平台都在研究如何对抗黑灰产，不仅仅是因为黑灰产会侵害平台的用户，更严重的是，当平台对内容失控的时候，在这个互联网文明底线越来越重要的年代，基本就代表了更严重的后果。

理由是苍白的，大家只看有没有做到。

很多人以为的黑灰产仅仅是在发布一些看起来比较弱智的骗局，那理解就太浅薄了。

现在，在话题广场，论坛，评论区，用户昵称，甚至私人对话，只要可以录入文字图片和语音的地方，就存在着失控的风险。

只要能传递信息，黑灰产就不会放过，过去是电线杆和公共厕所，现在就是所有媒介。

产品是简单的，人性是复杂的。

作为内容平台，只能用尽全力去保护用户，击败对方。

或者被对方击败。

抖音作为当前第一短视频平台，拥有最庞大的内容创作群体和内容消费群体。

在抖音上，内容创作者与内容消费者是可以直接交互的，这就代表在黑产眼中，这是流量富矿，并且操作空间巨大。

实际上，任何可以C2C的内容平台，都是可操作性的，但抖音流量最大。

前段时间，“假靳东”事件闹得沸沸扬扬，这就是一起典型的C2C黑灰产诈骗。

在实际业务中，C端用户上传的内容天然具有很大的不可控性，因为每个人的价值观和法治观念都是不同的，你没法把所有人的思想和操作统一，很多人就是喜欢在内容平台上上传大量的违禁内容。

论坛时代走过来的老网民都懂，黄图和小视频总是拦不住大家的散播。

从平台角度而言，这些都是风险，需要在保证正常用户体验的前提下，降低内容风险。

说白了就是，屏蔽风险内容，惩罚乱来的账号。

从平台角度来说，纵容这些乱来的账号和内容，属于找死。

从业务上必须要杀，但是从技术上如何杀，就是非常具有挑战的问题。

不是说可疑就要杀的，不能因为少部分人的放飞自我就影响多数人的体验，大家出来做生意，用户体验是第一要义。

针对内容风险关系，第一轮，也是最基础的，是敏感词屏蔽。

什么叫敏感词？可以简单理解为是大家在私下场合心领神会的说，但是在公开场合绝对不会说的那些东西。

在抖音平台上，敏感词出现在账号ID，个人简介，私信内容，视频封面等场合。

针对敏感词屏蔽，抖音的策略是自建词库+机器学习+人工审核。

策略包含敏感词收集策略，敏感词应用策略，敏感词处置策略。

在这里面，人工起到了很大的作用。

很多公司喜欢瞎吹人工智能，觉得人工智能能够解决一切问题，但现实业务中，人工智能对于语义分析是存在一定问题的。

大家日常对话的那些内容，不复杂，但是涉及到敏感词，汉语是博大精深的，使用各种谐音字，变体字，火星文，以及中间夹杂各种特殊符号和空格的模式，很容易就能绕过机器。

就例如微信这个词，可以变种成V信，VX，威，VV，V你懂得，威X信等等等等，在人眼中是一样的含义，但是在机器眼中截然不同，作为已经把算法玩到极致的抖音，非常清晰的知道机器的力量有穷尽，人的主动识别配合数据分析师定向收集，再同步模型，才可以实现ROI最大化。

而且敏感词这个东西，收集很重要，怎么用更重要。

一不小心就把好的坏的一起干掉了。

例如黄恐暴类的敏感词，标签对应的处置手段应该是直接屏蔽+封号或者直接禁止发布，不废话，直接干掉。

例如疑似推广号的标签，对应的处置手段应该是屏蔽+禁言，或者禁止发布，并给予警告。

例如命中了一些权重较弱的敏感词或者敏感字，对应的处置手段应该是转人工审核，再处置。

当然，具体的尺度，是不同厂家有不同的价值观。

在抖音这边，力度一直是比较大的，因为流量和影响力都太大，出一点点问题，都是大问题。

说完敏感词，必然绕不开的是图片和短视频，这是抖音的看家本领，也是最需要风险管控的部分。

图片和视频带有的问题主要是三类。

第一个是黄恐暴类内容，图片视频本身有问题。

针对这部分内容，抖音建立了庞大的敏感素材库，外加机器+人工的审核机制。

巨大部分敏感图片和问题视频是直接过不了审的，发都发不出去。

少部分有疑问，但是没法被机器判定为铁狼的内容，会转人工审核，无问题后再通过发布。

有一些是已经发出去但看的人比较少，人工还会做二次巡查，如果发现问题，第一时间下架或者限流。

还有一些发出去已经开始推送起量的，人工会再次介入核查，确保每一个能被推送出去的内容，都是尽可能不存在问题。

第二个是视频本身没黄恐暴负面问题，但是视频里面的东西有问题，例如视频里面就有VX：12345，点我看片等字迹或者水印。

这里除了第一条里面的相关规则之外，还要额外添加OCR环节。

要把视频里面所有可以转换为文字的信息（包括各种字体和字幕），全部都转化出来，然后由机器进行过滤。

过滤完之后，还要人工再过滤。

第三个是视频本身没有任何问题，但是视频带来的东西有问题，例如假靳东，靳东的祝福视频本身是正常的，但是被拿来用于诈骗，就非常的不正常。

针对视频正常的，但用途有问题的case，单靠机器讲白了没用。

因为机器只能核验要素，无法核验用途。

机器风控很重要，但其实只是表层，而且永远难以做到穷举，真的一刀切下去，会误伤大量的正常用户，这对于用户体验和公司的商业价值而言都是损失。

这时候，主力军就成了人工。

抖音投入了上万的审核人员做巡查，专门识别类似的风险内容，这块儿成本投入堪称恐怖。

但效果斐然，在4月份开始的仿冒名人专项打击中，已经封禁黑产作弊账号18万+，重置仿冒用户6W+，处理问题视频超过400万条。

这是成绩，成绩背后是成本。

机器加人工审核，能够解决问题吗？

严格来说，也不能。

因为内容风险治理不是简单的拼策略或者拼算法或者拼人力。

内容风险治理是一个系统性工程。

不是说你有个好的算法或者你有一堆人就可以解决问题。

因为问题是每天都在发生的，不可能无穷尽的去堆资源，那就不要做生意了。

所以有一个系统性工程，能够形成内容过滤的良性生态，才是从源头解决问题。

用更简单的话来说，单单是抖音自己在努力，其实是不够的，再多人力，也是有穷尽的。

再强大的机器算法，也是不可能不出错的，更何况很多风险内容本身就处在对与错的中间。

最好的方法，是让用户也参与进来，发挥大家的力量。

大家希望看到优质且无风险的内容，平台也希望干掉那些有危害并令人不适的内容，利益诉求是一致的。

普通人的力量，才是最强的力量。

针对让普通人也能参与，抖音一直以来坚持两步走。

一步是抖音大力做用户教育，让用户自己意识到有些视频存在问题，养成合理举报的习惯。

即使一个视频机器觉得没问题，人工审核觉得没问题，巡检觉得没问题，但不代表一定所有人都适宜，有些细节问题可能只有特定的人能看出来，他们的力量非常重要。

过去一年，抖音安全中心已经产出75期防诈反诈教育视频，累计播放量7.1亿次。

另一步就是完善举报机制。

用户自发来对问题视频进行举报，平台要做的不仅是认真且快速的审核处理，更要将相关案例做拆解，给相关的信息打上标签，优化机器模型。

机器的效率高于人，但机器依然要向人学习如何处理问题。

另外，仅仅是让用户参与，一起完善模型，还不够。

防守永远只是防守，风险管理也要考虑进攻。

抖音针对各种发布违规信息的账号，会反过来追溯其特征，是哪些人，在哪些机器，以什么ID，用什么IP，进行了批量操作。

黑灰产这年头也不是用手的，大家都是机器批量操作，不然还没轮到鱼上钩就先饿死了。

举个例子，假如抖音发现某类黄恐暴内容，大部分发布者和点赞者的IP都是相同的或者都是同一个号段的，那么不仅可以设置策略屏蔽这个IP，更可以直接报警。

互联网不是法外之地。

今年以来，抖音安全中心已经协助各地公安机关打击涉嫌诈骗、色情的黑灰产团队25个，刑事拘留87人。

这个数字单纯看起来不大，但这是一种震慑。

告诉所有黑产，管住自己的手，不然看看同行的下场。

有时候，震慑的威力要比直接出刀更加有效。

坦率地说，很多公司对于内容风控的价值和意义都是意识不到位的。

流量第一思想下，很多平台对于擦边球内容其实是睁一只眼闭一只眼的，毕竟是用户自发上传的东西，出了问题可以把锅甩给上传的用户。

但在这个过程中，好处是自己平台吃下了。

这种野蛮生长的逻辑，其实是目光短浅的。

因为在这个互联网文明大趋势的浪潮下，内容出现风险不是简单的挨骂，而是切实的会直接影响平台的生存。

因为互联网让内容的传播效率变快，那么必然风险的扩大也是同样的。

至于那点因为擦表球和默认黑灰产肆虐得到的流量，很有可能会被一把打的吐出来。

内容风控，将是这个年代所有内容平台的命门。

这是能不能持续做生意的问题，而不是赚多赚少的问题。

另外，很多公司虽然也知道这个重要，但往往先期投入不足。

风险管理是一个长期的系统工程，临时抱佛脚其实意义不大，找谁来都没办法解决体系缺失的问题。

模型要靠长期的算法迭代以及不停的数据积累来供养，先行者早就树立起了极强的风控壁垒。

这些壁垒需要大量的时间和资源投入，不是一朝一夕就有的，全部都是非卖品。

当大家都发展起来的时候，有时候不是比谁赚的更多。

而是比谁错的更少。

装傻装死一时爽，但问题不会因此消失，总要面对现实。

所以打击黑产，不能有侥幸心里，需要竭尽全力。

从过去，到现在，到将来。

都是如此。

抖音上的猫鼠博弈

相关推荐