中文文本纠错算法--错别字纠正的二三事
现成的工具包
https://github.com/shibing624/pycorrector
代码:
import pycorrector
corrected_sent, detail = pycorrector.correct('少先队员因该为老人让坐')
print(corrected_sent, detail)
https://github.com/ccheng16/correction
https://github.com/PengheLiu/Cn_Speck_Checker
https://github.com/taozhijiang/chinese_correct_wsd
https://github.com/beyondacm/Autochecker4Chinese
https://github.com/SeanLee97/xmnlp
相关推荐
-
Github Star 11.5K 项目再发版:AAAI 2021 顶会论文开源,80 多语言模型...
一.导读 OCR方向的工程师,一定需要知道这个OCR开源项目:PaddleOCR 短短半年时间,累计Star数量已超过11.5K, 频频登上Github Trending和Paperswithcode ...
-
这个项目在 GitHub 火了!一周暴涨 3000 Star!!!
大家好,我是小 G. 今天为大家推荐一个相当牛逼的项目. 粗略估计,这个项目价值超过百万! 当前 star 5.1k,但是大胆预判,这个项目肯定要火,未来 Star 数应该可以到 10k 甚至 20k ...
-
基于YOLOv3 与CRNN的中文自然场景文字检测与识别
华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter 华科新开源文本识别算法:ASTER与DeepLesion数据集百度云下载 开源OCR文字识别软件Calamari Ope ...
-
EfficientDet 目标检测开源实现
EfficientDet为谷歌大脑新提出的目标检测算法(EfficientDet: Scalable and Efficient Object Detection)EfficientDet:COCO ...
-
中文文本分析相关资源汇总
中文文本数据逻辑性分析库 中文文本数据(挖掘)分析相关资源汇总一.Python中文数据处理库项目地址简介jieba分词https://github.com/fxsjy/jieba中文分词库中文复杂事件 ...
-
实测U^2-net显著目标检测算法
今天体验了下U^2 -Net,在2020年的时候刷爆了 reddit 和 twitter,号称是当年最强的静态背景分割算法.u-2-net 的结构长什么样? 长得像U型,原来是基于语义分割网络u-ne ...
-
GitHub上1万8千个star大佬开源算法推荐!!!
不多bb先放图 链接 https://github.com/TheAlgorithms/Python 简介: 该项目上有大量的算法,包括排序算法.二叉树.动态规划.神经网络.机器学习算法等等,作者 ...
-
精选GitHub上关于算法的开源项目,已经超过2W关注了!!
每天早晨8点50分,准点开车打卡 算法(Algorithm)在百度百科里是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制 .算法对于每个程序员来 ...
-
中文是科学的文字简述之二
中文是科学的文字简述之二 <周易·系辞下>云:"古者包牺氏之王天下也,仰则观象于天,俯则观法于地:观鸟兽之文与地之宜:近取诸身,远取诸物,于是始作八卦,以通神明之德,以类万物之情 ...
-
医疗健康领域的短文本解析探索 ----文本纠错
来自:丁香园大数据 前言 最近在优化dxy帖子召回问题,我们之前在医疗健康领域的短文本解析探索(一)提到了phrase mining 抽取粗粒度名词,在医疗健康领域的短文本解析探索(二)提到实体链接相 ...
-
仰泳常见错误及纠正(二):手部入水和出水,问题说“小”也不小
仰泳常见错误及纠正(二):手部入水和出水,问题说“小”也不小
-
如何做中文文本的情感分析?
这是本学期在大数据哲学与社会科学实验室做的第三次分享了.第一次分享的是:如何利用"wordcloud+jieba"制作中文词云?第二次分享的是:如何爬取知乎中问题的回答以及评论的数 ...
-
Go 数据结构和算法篇(十二):字符串匹配之 KMP 算法
昨天 以下文章来源于xueyuanjun ,作者xueyuanjun xueyuanjun学院君的订阅号,我会在这里持续更新优质全栈编程技术教程,包括但不限于 Golang.PHP.JavaScrip ...
-
使用streamlit上线中文文本分析网站
cnsenti App 这是使用streamlit库将中文情感分析[cnsenti 部署到网络世界,可在线提供简单的中文文本的情绪及情感计算. streamlit库(https://docs.stre ...
-
中文是科学的文字简述之二十二
中文是科学的文字简述之二十二 承前篇 范式文字与象形文字最大的区别在于系统性. <甲骨文字典>第83页:将"勿"视为' '象耒形.' '象耒端刺田起土.认为一举耒起土为 ...
-
中文是科学的文字简述之二十三
中文是科学的文字简述之二十三 承前篇 范式所提示的是一种观察方式所构成的导向. <周易·系辞下>:"是故<易>者,象也;象也者,像也.彖者,材也;爻也者,效天下之动者 ...
-
教育部 | 夹用英文的中文文本的标点符号用法(草案)
本文转载于: 应用语言学研习 来源:整理自教育部语言文字信息管理司 " <夹用英文的中文文本的标点符号用法>于2011年12月13日鉴定通过,2014年6月1日以国家语委绿皮书方 ...