编者按:算法先对“我”的信息展开分析和处理,然后将“我”和“我”相似年龄段的用户信息放入模型中,推算“我”是一名喜欢浏览美女图片、出入不明场所的色狼。
文|薛机智x,原载于陆玖财经(ID:liujiucaijing69)
同一个软件,展示给一个中年男人的内容,和一个年轻姑娘的内容,有多大区别?最近,陆玖财经身边很多男性朋友发现了一件非常有意思的事情,他们被算法集体判定为了“有特殊需求”的用户,比如他们用手机打开大众点评搜索周边SPA(水疗),系统就会给他们匹配很多一看就很“激情燃烧”的店铺,而在同位置的一名年轻女性用户查看周边SPA,结果就完全不同,一切都很正常;小红书的同城展示结果也一样,展示给中年男性的都是很露骨的年轻美女,她们的动态大多以交友为目的;甚至抖音也能不断的刷到各种交友用户,引流到QQ之后,发现竟然是招嫖的账户。陆玖财经不禁发出了一个疑问,为什么算法会判定男性用户一定会有这种特殊需求呢?这到底是算法在作恶,还是算法背后的规则制定者在利用人性的弱点呢?年底了,陆玖财经编辑部想集体去按个摩放松一下身体,没想到,按摩没按成,还发现了一些问题。当同事们同时拿起手机,打开大众点评的按摩页面,定位在附近,想看看都有什么好去处时,发现每个人的推荐服务店铺都不太一致,这究竟是为什么?对于上述情况,陆玖财经专门拿了五部手机做起了一项实验,想看看不同用户的手机,究竟会有什么差异。先从大众点评开始,这五部手机的相关信息分别为中年男性、年轻女性和未注册的新用户。在大众点评中点击按摩/足疗页面,定位为附近,两个中年男性的手机显示的为:内容非常露骨,店铺名称带有深深的暗示意味,欲境、柔湄私夜养生……店铺的宣传图片也是配以昏暗的灯光,有的直接露出了技师曼妙的身材。打开店铺,发现里面还有女技师的自拍照片。但如果选择那些看起来比较正常的按摩店,要么展示技师穿着职业装的正装照,要么就是不显示技师的照片,所以这些店铺的意图何在?陆玖财经,不做评判,诸位读者请自行体会。而打开注册信息为年轻女性的手机,采用同样的操作后,结果呈现出截然不同的页面:起码看上去都是比较正规的按摩店,往下滑了半天才翻到一个与前一部手机重合的一些店铺。不同的性别还能产生如此大之差异?可能是因为没有获取精准的用户画像,店铺推荐比较均匀,一半是正常形态的店铺,另一半则是疑似提供涉黄服务的店铺。很显然,这些中年男性被算法贴上了可能存在特殊需求的标签,被判断为“色狼”了。陆玖财经走访了部分有嫌疑的店名露骨的按摩SPA店铺,大多开在不起眼的小区附近,甚至是小区内部。客人前往之后,往往就是不停暗示客人办卡,并表示办卡后会有其他超值服务。无独有偶,陆玖财经又针对小红书平台展开了同样的试验,收获了同样的结果。里面有许多性感美女的自拍,她们的标题内容也比较直白,多是一些以交友为目的的文案。点进几个女孩的笔记后,发现其发布的内容非常露骨,包含大量敏感字眼,难道小红书现在已经成了一个公开交友、拉客的平台了吗?而年轻女性的小红书首页多是时尚美妆、美食等等,很少能看到这种暗示性或是交友的笔记内容。不只是大众点评和小红书,那天陆玖财经的同事在刷抖音的时候,刷到一个美女搔首弄姿的视频,她的首页个人资料介绍非常简单,附上了自己的联系方式,只发布了唯一一条抖音。陆玖财经觉得奇怪,因为抖音里的正常账号,很少会有类似这样的个人介绍,就打开QQ输入了这串数字,想要一探究竟。加上她的QQ交流以后发现,此人完全就是一个招嫖账号,内容十分直白,各项服务明码标价。不禁想问,现在的互联网平台,都如此评判人的喜好,明目张胆地推送涉黄信息吗?一位在曾在华为工作过的资深算法软件工程师赵学洪告诉陆玖财经,算法其实是通过对自然语言进行处理,以文档的形式形成一个关系数据库,基于用户行为和相关信息给用户加上算法标签,形成一个个的数据实体,数据实体在这一过程中将会被抽象出来,进行对应关系的匹配。平台会根据自身设定的数学模型(算法模型)把这些对应关系放入数据库中,得到一个自身想要的结果集。算法模型在各个平台之间是通用的,但是每个平台之间采取的模型会有差异,这就直接导致了平台获得了不一样的结果及方向。用户画像分析是算法数据搜集的一个过程,数学公式会根据每个平台的特性对用户画像进行对应的处理。用户画像的生成与用户过往的浏览行为、人口统计学相关信息(如年龄、性别、地域、兴趣等)以及相似用户信息等密不可分,然后基于用户画像对用户打上个人标签,通过对标签的分析和判断帮助用户进行信息过滤,形成用户的个性化推荐,也就是各大平台的推荐页。也就是说,算法先对“我”的信息展开分析和处理,然后将“我”和“我”相似年龄段的用户信息放入模型中,推算“我”是一名喜欢浏览美女图片、出入不明场所的色狼。赵学洪还介绍说,早期的算法比较死板,需要让用户自行选择喜欢的兴趣内容,为自己勾选标签,然后进行信息过滤和推荐。而现在,以字节系为代表的算法技术已经可以脱离这一阶段,直接可以根据用户习惯推理这些标签,从而形成个性化内容。算法技术发展到今天,已经越来越趋向于智能化,但像上述事件那样智能,对人们而言究竟是福还是祸?赵学洪在采访中告诉陆玖财经,控制算法的背后的人,存在价值观。与其说是价值观,不如说是价格观,商业化才是算法背后的核心。平台通过用户行为生成算法标签,然后通过一系列大数据分析和推算,将用户信息和市场信息相结合,同时考虑平台自身信息的变化从而形成内容推荐,每天推荐的内容会根据当天形势形成较大差异和变化,甚至是精确到每个时间点都会有差别。算法作为平台吸引流量和完成商业化的工具,自然也就受到自身归属平台的影响,形成了价值观。他举了这样一个例子,新浪微博的热搜和今日头条的热搜往往会有较大的差异,但按理说在一个时间点,人们关注的事件会有很大的关联性和交叉性,但是因为平台本身受众和平台关注的热点存在差异,导致热搜内容存在较大出入。很多时候可能不是我们想要关注这些热点,而是这个平台想让你觉得它是热点,就让它出现在了热搜推荐栏。这些互联网平台里的内容和服务,通过竞价排名,出价高者可得优先推流权,平台在这一过程中收取内容或是服务提供者的推流费和服务费,通过一些技术性手段,将这些内容提供给用户,并且让这些内容表面看上去没有什么破绽。所以,那些中年男性被判定为色狼也就不难理解了。算法通过猜测用户喜好生成推荐,平台为了吸引流量,往往会利用人们的好奇心和兴趣,在提供内容时加入刺激性的信息。某内容平台高管向陆玖财经爆料:之前,我们平台要是出现流量数据下滑的情况,往往会在晚上发布一些美女图片,第二天一般流量就会回到正常水平甚至出现小幅提升。这些平台提供给你的刺激性信息,在达成KPI方面,事实证明是有效的。一位前互联网公司高管告诉陆玖财经:只要平台是以KPI(绩效考核)为导向,就会有打擦边球的现象出现。的确,互联网公司往往以PV、UV、停留时长等作为一款产品或应用的KPI考核点,而这些数字背后,都代表用户的上网行为。用刺激性信息引导用户驻留,就成为很多算法工程师工作的重要内容。算法背后的规则制定者利用人性的弱点在作恶,算法本身或许并不具有价值观,但因为它依附于平台,存在一定目标导向,它就有了价值观。某互联网公司对于平台提供涉黄信息向陆玖财经做出回应,目前平台上提供的内容和服务,先由机器根据文字的关键字、图片的图形分析等进行过滤和筛选,一般能甄别出90%的不良信息,那剩下的10%交给人工。虽然这个比例看上去比较小,但实际操作起来,信息量依然很大,其中难免会存在疏漏,导致一些敏感信息未被及时处理,提供给了用户。上述这样的平台,并未对用户尽到其应承担的责任。互联网并非法外之地,它存在着边界。可以看到,《网络安全法》、《民法典》中均规定了平台运营者有保护用户的法定义务。平台在日后若继续铤而走险,监管不严,纵容用户进行违规操作,发布违规内容,隐蔽提供违规服务,破坏网络环境,必将受到法律的制裁。工信部、国家违法和不良信息举报中心、扫黄打非办等国家有关部门,对于APP涉黄曾经三令五申,屡次打击,但为何这类涉黄信息,一直屡禁不止?一切源于算法。一些APP的产品经理,似乎在利用算法打擦边球,甚至利用算法逃避监管。算法作为一种技术,本是为了给用户提供更好的体验而存在,如今却逐渐沦为了商业化的工具和手段。可谓是平台把这一手好牌,打了个稀烂!部分资深的算法工程师曾经在一些公开论坛上表示,在未来,可以通过算法自身优化,解决平台提供隐形涉黄内容的问题。算法可以通过对神经网络的深度学习,达到更深层的阶段,完全可以模仿人的行为。只是目前技术和模型不够成熟,实现不了太高的信息识别精度。当制约算法技术进步的壁垒突破后,完全有望实现99.9%的精度,到那时,机器可以完全取代人工,实现对涉黄内容的高精度筛查判断,很难会有像平台回应时所说的那样漏网之鱼的出现。快手CEO宿华曾公开表示,算法其实和木匠的锤子、斧子类似,本质上是一个工具,主要是看用工具的人怎么去用它,要用正确的价值观指导算法。