推荐|社区问答系统精准匹配信息和人，满足你对获取知识的迫切需求

2024-05-01 09:16:44

社区问答系统（Community Question Answering, CQA）将信息和人精准匹配，为问题找到合适的回答者，为回答找到合适的阅读者，满足了人们对获取知识的迫切需求。在CQA中，一个核心问题是为给定的问题推荐具有专业知识并具有回答意愿的专家。如果问题推送策略准确度不高，即不能有效解决问题，也可能给部分不适合回答问题的专家用户带来打扰。

本文以头条问答数据集为例，重点分析了CQA中专家推荐的常用算法，该数据集一共包含三类信息：

专家标签数据：包括所有专家用户的ID，专家兴趣标签，处理过的专家描述；
问题数据：包括所有的问题的ID，处理过的问题描述，问题分类，总回答数，精品回答数，总点赞次数；
问题分发数据：29万条问题推送记录，一条推送记录包括一个问题ID，一个专家用户ID，该专家是否回答了该问题的标注。

下表总结了ByteCup竞赛（https://biendata.com/competition/bytecup2016 ）中使用的各个特征，其中++表示该特征特别有效，+表示有效，-表示无效。

ByteCup竞赛中使用的各算法效果如下：

我们将竞赛中使用的CQA专家推荐算法分为四类：

基于矩阵分解（Matrix Factorization, MF）的方法，包括SVD, SVD++, Bidirection SVD++, Bidirection ASVD++；
基于梯度提升树（Gradient Boosting Tree, GBT）的方法，包括GBRT；
基于深度学习（Deep Learning, DL）的方法，包括AutoRec, CF-NADE, Match-SRNN；
基于排名（Ranking, R）的方法，包括Rule和Ranking SVM；

在CQA专家推荐中，基于MF的方法比其他几类方法取得更好的效果。

本文分析了竞赛中前五名使用的特征，总结如下：

我们发现，该竞赛中前5名都使用了集成学习，单一模型并不能在竞赛中取得好的名次。接下来介绍集成学习相关知识。集成学习，就是使用一系列学习器进行学习，并使用某种规则将各个学习器的结果进行整合，从而获得比单个学习器效果更好的学习效果的一种方法。

集成学习可以用于分类问题，回归问题，特征选取，异常点检测等的集成，本文采用分类进行说明。弱分类器是指分类器仅能对少量样本进行正确分类，其分类效果仅略优于随机猜测。强分类器是指对样本分类的正确率很高的分类器。

通过集成学习提高分类器的整体泛化能力有以下两个条件：

基分类器之间具有差异性。如果使用的是同一个分类器集成，集成分类器的性能是不会有提升的。
每个基分类器的分类精度必须大于0.5。如下图所示，当基分类器精度小于0.5时，随着集成规模的增加，分类集成分类器的分类精度会下降；但是如果基分类器的精度大于0.5时，集成分类器的最终分类精度是趋近于1的。

集成学习常见的三种方法是Bagging, Boosting和Stacking。

Bagging用于提升机器学习算法的稳定性和准确性。
Boosting主要用于减少bias（偏差）和variance（方差），是将一个弱分类器转化为强分类器的算法。
Stacking是一种组合多个模型的方法。

Bagging (Bootstrap Aggregating)对训练集采用有放回采样。通过对原数据集进行有放回的采样，构建出大小和原数据集T一样的新数据集T1，T2，T3…，然后用这些新的数据集训练多个分类器f1，f2，f3…。最终分类结果根据这些分类器各自结果的投票来决定。Bagging算法中，基分类器之间不存在依赖关系，基分类器可以并行生成。

Bagging的性能依赖于基分类器的稳定性，如果基分类器是不稳定的，Bagging有助于减低训练数据的随机扰动导致的误差，但是如果基分类器是稳定的，即对数据变化不敏感，那么Bagging方法就得不到性能的提升，甚至会减低。Bagging示例图如下：

Boosting，是一个迭代的过程，每次在新分类器中强调上一个分类器中被错误分类的样本（增加错误分类样本的权重），最后将这些模型组合起来的方法。每次对正确分类的样本降权，对错误分类的样本加权，最后分类器是多个弱分类器的加权组合。

Boosting没有对样本进行重采样，而是对样本的分布进行了调整。Boosting算法中，基分类器之间存在强依赖关系，基分类器需要串行生成。Boosting示例图如下：

Stacking的基本思想是训练一个基本分类器池，然后使用另一个分类器来组合它们的预测，目的是减少泛化误差。

Stacking的步骤如下：

将训练集分成两个不想交的部分；
在第一部分的训练集上训练若干个基本学习器；
在第二部分的训练集上测试得到的基本学习器；
使用步骤3中的预测结果作为输入，将正确的响应作为输出，训练更高级别的学习器。

Stacking示例图如下：

如需获取此篇论文

如果Boosting 你懂、那 Adaboost你懂么？

选择"星标"公众号重磅干货,第一时间送达! 转载请注明作者和出处: https://zhuanlan.zhihu.com/ml-jack 机器学习知乎专栏: https://zh ...
【原创】机器学习从零开始系列连载(5)——Bagging and Boosting框架

Bagging and Boosting框架 Bagging和Boosting是两类最常用以及好用的模型融合框架,殊途而同归. Bagging框架 Bagging(Breiman, 1996) 方法是 ...
认真的聊一聊决策树和随机森林

随机森林是一种简单又实用的机器学习集成算法. "随机"表示2种随机性,即每棵树的训练样本.训练特征随机选取. 多棵决策树组成了一片"森林",计算时由每棵树投票或 ...
人工智能基础课堂纪要8

5.3 Boosting[**] 1.boosting集成原理随着学习的积累从弱到强 2.实现过程 1.初始化训练数据权重,初始权重是相等的 2.通过这个学习器,计算错误率 3.计算这个学习期的投票 ...
Adaboost算法:基于集成学习的又一经典分类算法

对于集成学习而言,常用的有bagging和boosting两种策略,在之前的文章中,介绍了bagging策略的经典算法-随机森林,本文介绍基于boosting策略的经典分类算法-Adaboost. b ...
EL：集成学习(Ensemble Learning)的概念讲解、问题应用、算法分类、关键步骤、代码实现等相关配图详细攻略

EL:集成学习(Ensemble Learning)的概念讲解.算法分类.问题应用.关键步骤.代码实现等相关配图详细攻略集成学习Ensemble Learning 集成学习是使用一系列学习器进行学习 ...
买方投顾千人千面，盈米且慢基金用AI技术精准匹配

买方投顾业务是基金行业长期发展的方向,前途光明.但引导投资者长期投资.价值投资.组合投资,持续打造健康的行业生态却是漫长的,且过程中存在"痛点". 买方投顾可以说是一个新事物,20 ...
85岁的钟南山院士推荐多吃黑豆，可惜很多人吃错了，早知道早收益

85岁的钟南山院士推荐多吃黑豆，可惜很多人吃错了，早知道早收益
命里带有这点信息的人，未来一定前程似锦，平步青云！

上几节课我们分别讲过了财格.官格.印格和食神格的取法和定格,这节课我们接着来讲七杀格的取法和定格. 七杀格是一个非常大的格局.古人除了强调"有杀先论杀"外,还特别看重官.杀.财. ...
好文推荐：杨绛先生谈《人各有命，命是全不讲理的》

好文推荐：杨绛先生谈《人各有命，命是全不讲理的》
说到你心坎上的情感句子，精准走心，让人感同身受

成年人的世界每种选择都有遗憾,不努力的话,连个或许都没有. Every choice in the adult world has regrets. If you don't work hard, y ...
仅仅通过一个网名就找到了一个人所有的隐私信息！人肉搜索（上）

欢迎各位来到校尉说!我是发丘校尉发丘校尉声明:本文的目的不是想让你学会人肉搜索后去干窃取他人隐私的事情.而是想让你了解其中的原理,以后可以更好地在网络世界中保护自己的人身安全和个人隐私! (本文将 ...
给大家推荐一本书《战胜一切市场的人》#2...

给大家推荐一本书<战胜一切市场的人>#21天图文打卡挑战# 作为数学教授,他会如何讲述自己玩转赌场.击败庄家的故事? 而作为伟大的量化投资鼻祖,他又是如何在华尔街掀起一场金融革命的? 这本 ...
每天2万次呼吸只能称为“喘气”，正确的精准呼吸却没人懂得

说到呼吸大家再熟悉不过了,每天都在重复着延续的事情,那么,我们真正的有去感受过它,享受过它.专注于它么? 一.呼吸是人类的本能人类从妈妈肚子里一出来,就要进阶两件事情,第一就是呼吸,断开了妈妈的脐带 ...
推荐8款好用的懒人必备Windows电脑软件

推荐几款我平常工作学习用到的电脑软件. 作为一个很lazy的人,我对电脑软件追求比较简单,不要奇奇怪怪,随用随到就行. 所以,首先推荐,不要装杀毒软件以及安全卫士,WIN10 自带的功能已经够了! 接 ...

推荐|社区问答系统精准匹配信息和人，满足你对获取知识的迫切需求

相关推荐