文档智能：数字化转型的技术基石 / 开普饭

摘要: 为了提高文本相似度检测算法的准确度,提出一种结合潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)与Doc2Vec模型的文本相似度检测方法,并把该算法得到的模型 ...

文本相似度是指衡量两个文本的相似程度,相似程度的评价有很多角度:单纯的字面相似度(例如:我和他 v.s. 我和她),语义的相似度(例如:爸爸 v.s. 父亲)和风格的相似度(例如:我喜欢你 v.s. ...

学习人工智能,最好的办法就是先考上大学,学好计算机和数学,其次就是生个孩子. 这可不是一个段子.有了孩子之后,你会能更好理解人工智能到底是如何发生的. 看着一个牙牙学语的小婴儿开始对这个世界发生好奇, ...

摘要现代的信息检索系统一般都采用多阶段排序的架构来平衡系统对于效率和性能的需求,其中第一阶段检索重在快速从大规模文档库中返回少量的候选文档,而后续的排序阶段则对这些候选文档进行多轮精排提高系统的性能 ...

Bert 自 Google 于 2018 年发表至今,一直给人们带来惊喜,期间也陆陆续续因为Bert出现的原因多了不少新的岗位,甚至公司 JD 上都明确表明必须懂 Bert. 它在 11 项自然语言处 ...

编辑整理:刘香妍中南财经政法大学出品平台:DataFunSummit 导读:实体抽取或者说命名实体识别 ( NER ) 在信息抽取中扮演着重要角色,常见的实体抽取多是对文本进行子信息元素的抽取,但 ...

这是今年清华大学及阿里巴巴发表在NIPS 2020上的一篇论文<CogLTX: Applying BERT to Long Texts>,介绍了如何优雅地使用bert处理长文本.作者同时开 ...

尽管基于BERT的模型在NLP诸多下游任务中取得了成功,直接从BERT导出的句向量表示往往被约束在一个很小的区域内,表现出很高的相似度,因而难以直接用于文本语义匹配. 为解决BERT原生句子表示这种& ...

编者按:人类认知的三大属性包括:单语言文本(X),音频或视觉感官信号(Y)和多语言文本(Z).微软通过研究 X.Y.Z 三个领域的交汇处,发现了实现 AI 能力又一次飞跃的可能--以更接近人类的学习和 ...

百度文库下载需要券,或者vip才能下载 Vip价格高,偶尔下载一次不划算. 不下载复制?不好意思复制也需要vip否则只能一次复制两行. 如何才能以最低成本获取到百度文库里的文档内容呢? 当然是用Pyt ...

来自:朴素人工智能感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理,我们将沿此脉络前行,探索预训练语言模型的前沿技术,红框中为已介绍的文章,绿框中为本期介绍的模型,欢迎大家留言讨论交流. E ...

文档智能：数字化转型的技术基石