Dataset：数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏，持续更新)

2024-06-20 06:22:53

Dataset：数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏，持续更新)

NLP数据集特点

文本相对容易收集和存储，但属性个数可能要比基因数据中的属性个数更多。对于一些自然语言处理问题，属性是词，每一行对应一篇文档。属性矩阵中的每一个元素表示词在文档中的出现次数。列的数目对应于文档的词汇量大小。根据预处理情况（如移除常见的词，如a、and 以及of），最后的词汇量可能会从几千到数万。如果考虑n-gram，文本的属性矩阵会更加庞大。n-gram 是相邻的2 个、3 个或者4 个词，这些词的位置足够紧密甚至可以构成短语。在这种情况下，线性模型相对于复杂的集成方法，可能会产生相同甚至更好的性能。

常见的NLP数据集

更新……
对应案例下数据集可向博主索取！

1、生物数据集以及自然语言处理数据集

一般是包含大量列的数据集，这些数据集虽然有很多样本，但往往也不足以训练好一个复杂模型。
1、生物数据集：在生物学里，基因数据集很容易就包含10,000 ～ 50,000 个属性。即使通过成百上千次的单个实验（数据的行），基因数据也不足以训练一个复杂的集成模型。线性模型可以给出等价甚至更好的性能。
(1)、基因数据很昂贵。一次实验（数据行）就可能花费$5,000 美元，整个数据集花费可能会达到5,000 万美元。

常见的使用案例

NLP：两种方法(自定义函数和封装函数)实现提取两人对话内容(***分隔txt文档)，并各自保存为txt文档
NLP之WE之Skip-Gram：基于TF利用Skip-Gram模型实现词嵌入并进行可视化、过程全记录
NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)

赞 (0)

2019年上半年收集到的人工智能自然语言处理方向干货文章

2019年上半年收集到的人工智能自然语言处理方向干货文章自然语言(NLP)发展史及相关体系读了这篇文字,做年薪百万的NLP工程师聚焦机器"读.写.说.译",探寻NLP未来之路 ...
2020上半年收集到的优质AI文章 – 自然语言处理

2020上半年收集到的优质AI文章 – 自然语言处理自然语言处理的蓬勃发展及其未来人工智能之自然语言处理初探我所知道的中国NLP「破圈」十年零基础入门NLP - 新闻文本分类现代NLP中的零 ...
自然语言处理技术的工作原理与应用

自然语言处理(NLP)是人工智能的一个分支,它使计算机能够像人类一样理解.处理和生成语言.搜索引擎.机器翻译以及语音助理均由该技术提供支持. 自然语言处理(NLP)的工作原理:自然语言处理(NLP)通 ...
一病一中药，12种常见病症的“必选”中成药，建议收藏保存！

一病一中药，12种常见病症的“必选”中成药，建议收藏保存！
一病一药，22种常见疾病的“好用”中成药，建议收藏

一病一药，22种常见疾病的“好用”中成药，建议收藏
干货！五大常见癌症早期筛查手册！建议收藏

1995年中国抗癌协会倡导发起了全国肿瘤防治宣传周,时间规定为每年的4月15日~21日. 据世卫组织癌症专家表示,2020年全球1000万人死于癌症,中国每分钟有7.5人确诊癌症. 但是!三分之一的癌 ...
常见疾病最怕的中成药，建议收藏备用！

万物相克,一物降一物,这11种常见疾病最怕的中成药,建议收藏备用! 1.香连丸--专门针对--肠炎 2.养血清脑颗粒--专门针对--头痛 3.骨筋丸胶囊--专门针对--骨质疏松 4.复方伤痛胶囊--专 ...
54个常见中药并开药名汇总！建议收藏

赵阿姨脾胃不好,肚子胀气.爱打嗝.有时候还胃痛.一直是吃西药治疗,但是没治好,反反复复好几年了.听人家说西药副作用大,这次赵阿姨在朋友的建议下去看了中医,希望能调好好.今天早上,拿着中药处方,去药房抓 ...
15种常见病症，中成药使用大全，建议收藏！

15种常见病症,中成药使用大全,建议收藏! 1.风寒感冒--中成药--感冒软胶囊.感冒清热颗粒: 2.风热感冒--中成药--银翘解毒丸.羚翘解毒丸: 3.气虚感冒--中成药--参苏丸.参苏宣肺丸: 4 ...
12种常见病症，常用中药配对，建议收藏

12种常见病症，常用中药配对，建议收藏
干货！五大常见癌症早期筛查手册！建议收藏！

1995年中国抗癌协会倡导发起了全国肿瘤防治宣传周,时间规定为每年的4月15日~21日. 据世卫组织癌症专家表示,2020年全球1000万人死于癌症,中国每分钟有7.5人确诊癌症. 但是!三分之一的癌 ...
常见的抗炎保肝用药（建议收藏） ...

常见的抗炎保肝用药(建议收藏) 肝脏炎症指的是肝脏因病毒(如乙肝病毒.丙肝病毒.等).药物.酒精或代谢异常等损伤引起的炎症改变,几乎见于各种肝病.而肝脏炎症的持续存在,可能会导致肝脏出现纤维化,甚至肝 ...