你的「在看」有人看,清华研究者从微信「看一看」里发现了这些规律
微信点「看一看」最活跃用户竟是爸妈辈,小年轻最「安静」…… 清华大学唐杰等人最近的一项研究透过微信「看一看」的数据分析了用户点击阅读文章和点「在看」的行为模式,并从人口统计情况、二元和三元关联、自我中心网络结构这些不同方面进行了分析。
该研究还提出了一个预测模型,预测准确率相比其他方法有所提升。目前,该论文已发表在《IEEE Transactions on Knowledge and Data Engineering》(TKDE) 期刊上。
论文链接:https://arxiv.org/pdf/2103.02930.pdf
GitHub 链接:https://github.com/zfjsail/wechat-wow-analysis
微信文章的「在看」按钮,想必大家都不陌生。在发现页点开「看一看」,微信用户就能看到朋友点过「在看」的文章,也可以点击这些文章进行阅读,或者点个「在看」。
微信「看一看」页面示例。(「wow button」是「在看」按钮。)
那么,哪些因素会影响用户点击阅读这些文章和点「在看」的行为呢?
哪些因素影响了「看一看」用户的行为
该研究从三个层面进行了分析。
从用户人口统计信息来看,不同性别和年龄段的用户「在看」和点击行为的变化很大,在考虑跨属性因素时,情况更加复杂;
就二元关联来看,当其活跃朋友是结构洞和意见领袖时,用户的行为可能截然不同;
而对于自我中心网络(Ego Network),「在看」和点击阅读文章的概率于用户活跃朋友构成的连通分支(connected component)数量强相关。
下面是具体分析结果。
用户人口统计信息
表 1、图 2 和图 3 给出了不同性别和年龄的用户在「看一看」中点「在看」和点击阅读文章的概率。从中,我们可以发现:
男性的点击概率明显高于女性,女性点「在看」的概率略高于男性(参见表 1);
20 和 30 的年轻人是线上社交圈的中流砥柱,但他们点「在看」和点击阅读文章的概率在所有年龄段中是最低的(参见图 2);
当同时考虑性别和年龄属性时,情况又有所不同:不到 20 岁的人中,男性比女性更活跃;但超过 40 岁的人中女性点「在看」的比例更大,超过 60 岁的人中女性点击阅读文章的比例更大(参见图 3)。
二元和三元关联
为了方便起见,该研究在二元关联中仅考虑用户与一个活跃朋友的互动,在三元关联中仅考虑用户与两个活跃朋友的互动。研究者从人口统计属性与社会角色两个方面进行分析。
1. 二元关联与人口统计属性
下表 2 展示了用户性别和朋友性别对用户活跃率的影响。从中可以看到,就点击行为而言,当二人性别相同时,用户的点击概率更高;但对于「在看」行为而言,当朋友是女性时,用户点「在看」的概率更高。
从年龄来看,下图 4 展示了用户年龄与朋友年龄对用户「在看」行为概率的影响。从中我们可以发现,当用户比较年轻(< 40 岁)时,相比于同龄人,他们更易受年龄较大朋友的影响;年龄较大用户则更易受同龄朋友的影响。
2. 二元关联与社会角色
下表 4 展示了用户与朋友具备不同社会角色——意见领袖 (OL) 和普通人 (OU) 时,对用户活跃率的影响。从中可以发现,当活跃朋友并非意见领袖时,用户点「在看」和点击阅读文章的概率更高。
下表 5 展示了结构洞 (SH) 和普通人 (OU) 这两种社会角色对用户活跃率的影响。(「结构洞」指社会网络中的空隙,即社会网络中某个或某些个体和有些个体发生直接联系,但与其他个体不发生直接联系,即无直接关系或关系间断,从网络整体看好像网络结构中出现了洞穴。)
可以看出,当朋友是结构洞时,普通用户的活跃率更高。而对于本身是结构洞的用户,当朋友非结构洞时其点击概率更高,但差别并不显著。
3. 三元关联与人口统计属性
下图 5 展示了用户性别和朋友性别对用户活跃率的影响。可以看出,当两个朋友的性别与用户性别相同时,用户的活跃率最高。这显示出很强的同质偏好性(homophily)。
下图 6 展示了用户年龄与朋友年龄对用户活跃率的影响。从中我们可以发现,如果一个朋友与用户同龄另一个较小,则用户的活跃率高;年长用户更关注年轻用户。
自我中心网络属性
此外,研究者还探讨了用户活动与其自我中心网络属性的关联,发现用户的线上行为(点击阅读和「在看」)受朋友圈(自我中心网络中的朋友)影响很大。自我中心网络指用户的活跃朋友的诱导子图(induced subgraph)。
该研究从自我中心网络中的朋友数量、连通分支 (#CC) 数量、cleaned 自我中心网络(k 核子图)中的 #CC 这三个方面分析自我中心网络的属性。
下图 8 展示了活跃朋友数量增加对用户活跃率的影响。从图中可以看出,对于点击和「在看」行为而言,趋势完全不同。
通过这些分析,研究者得到以下发现:
男性更喜欢点击阅读文章,女性更喜欢点「在看」,年轻人在「看一看」中的活跃度最低;
在二元或三元关联方面,用户和其朋友之间存在有趣的「同质相吸」现象(如性别),但当不止一个活跃朋友时,属性多样性(如区域)与用户的活动呈正相关;
根据自我中心网络拓扑结构,「在看」和点击行为的模式差异极大。例如,在活跃朋友数量固定的情况下,用户点「在看」的概率与活跃朋友构成的连通分支呈负相关,但点击行为却相反。当自我中心网络得到清理后,这一模式更加明显。
预测模型
既然发现了一些模式或规律,我们可以利用它们预测用户的线上行为吗?该研究创建了一个预测模型 DiffuseGNN。
模型架构。
如上图所示,DiffuseGNN 模型包含五步:预处理自我中心网络、输入层、特征平滑层、层级图表示学习和输出层。
该模型的核心组件和基础 idea 如下所示:
对于输入用户特征,研究者考虑了不同的用户特征,如用户人口统计信息(性别、年龄等)和预训练用户嵌入,并试图建模特征交互;
然后通过在可训练的调整后频谱域(trainable modulated spectral domain)中传播初始特征,来学习用户嵌入,这样学得的用户嵌入就可以捕捉自我中心网络中的有用信息,并过滤噪声;
接下来,研究者进一步将学得的中间表示输入到层级图表示模型中,该模型通过迭代聚类节点来学习子图嵌入;
该研究还使用新型注意力模型建模用户特征与朋友特征之间的相互作用。
实验
研究者在其收集的微信「看一看」数据和公开的微博数据集上测试了该模型对用户行为的预测效果,并选取了多类方法进行对比,包括:1)传统分类器:LR 和 RF;2)建模特征交互的深度学习方法:xDeepFM;3)基于自我中心网络的 SOTA 用户行为预测方法:DeepInf 和 Wang et al.;4)层级图表示学习方法:SAGPool、ASAP 和 StructPool。其中第 3 和第 4 类都是基于 GNN 的方法。
下表 7 展示了实验结果,从中可以看出 DiffuseGNN 模型的性能持续优于基线方法。
此外,该研究还探讨了不同模型组件对用户行为预测的影响,参见表 7 底部数据。从中我们可以发现,移除预训练嵌入和特征平滑步会导致较大的性能下降;增加二阶特征对基于微信数据的用户行为预测略有帮助,对基于微博数据集的用户行为预测效果较好;该模型在不使用人工制作用户特征的情况下也取得了不错的性能。
亚马逊云科技线上黑客松2021