好资源！近 20 万本 txt 书籍的语料库，可用于 GPT 模型训练和语义分析

2024-08-03 13:23:07

由于缺少规范化的数据集，训练一个像OpenAI一样的GPT模型通常很难。现在有了，它就是BookCorpus的'books3'数据集，一个包含196,640本书的txt数据集。

下载链接：https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz

但在下载这个37Gb的大文件前，我们先了解了解这个数据集。

BookCorpus

https://github.com/soskek/bookcorpus

BookCorpus是一个流行的大型文本语料库，适合在无人监督下学习句子的编码/解码器。但是，BookCorpus 目前已不再更新。

此存储库的数据来源包括smashwords的数据，是 BookCorpus 的原始来源。后续收集添加的句子可能有部分不同，但数量会更大更丰富。

最简单的调用方式是：

from datasets import load_datasetdataset = load_dataset('bookcorpus')

虽然bookcorpus已不再更新，但后续仍有人为该数据集丰富内容，更新信息。其中最突出的就是Shawn在今年9月贡献的book3语料库，每本书都以文本文件的形式单独存储。

Book3数据集

数据集的质量非常高，作者为了构建数据集，花了一周时间修缮了epub2txt脚本。

新脚本保证了：

正确保留结构，与目录非常匹配;

正确呈现数据表（默认情况下 html2txt 主要为表生成垃圾查找结果），

正确保留代码结构，使源代码和类似内容在视觉上保持一致，

将编号列表从'1\'转换为'1'。

通过'ftfy.fix_text（）运用在全文上（这是 OpenAI 对 GPT 的用途）运行全文，将Unicode的撇号替换为ascii编码的撇号;

将 Unicode 椭圆扩展到'...'（三个单独的 ascii 字符）。

book3数据集：

包含196,640本书籍

全部txt格式

链接更稳定，可直接下载。链接：https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz

如果想要下载其他数据集，可以访问：

https://the-eye.eu/public/AI/pile_preliminary_components/

最后

附上一个书籍的网页版样例：《Do It Yourself》

https://battle.shawwn.com/sdb/books1/books1/epubtxt/do-it-yourself-lifetime-financial-planning.epub.txt

参考：

[1]https://www.reddit.com/r/MachineLearning/comments/ji7y06/p_dataset_of_196640_books_in_plain_text_for/?utm_medium=android_app&utm_source=share

[2]https://github.com/soskek/bookcorpus/issues/27

[3]https://twitter.com/theshawwn/status/1320282149329784833

[4]https://github.com/soskek/bookcorpus

[5]https://huggingface.co/datasets/bookcorpus

- EOF -

有了这8个免费电子书下载网站，95%的电子书都能找得到！

Hello,各位叨友们好呀!我是叨叨君~ 不知道你们是不是这样,有时候为了找一本电子书,耗费了大量的时间精力,翻遍了整个网络,最后仍一无所获.找书源确实是一门学问,方法不对,时间加倍! 那么问题来了, ...
5个优秀的计算机视觉应用与相关数据集

介绍计算机视觉是数据科学世界中最热门的研究领域之一.而且,它已经成为我们个人生活的一部分.我们都知道或不知道地使用各种功能,这些功能在后端运行计算机视觉技术.例如,我们在智能手机中使用面部解锁.下图 ...
从招聘信息看一个合格的生信工程师该会哪些

https://careers-stjude.icims.com/jobs/5863/bioinformatics-analyst-ii/job 粗看一下,要求确实不低: 招聘要求但是都是合理的,也 ...
Paper：GPT-3《 Language Models are Few-Shot Learners》的翻译与解读

Paper:GPT-3< Language Models are Few-Shot Learners>的翻译与解读 <GPT-3: Language Models are Few-S ...
【图像分类】基于Pytorch的细粒度图像分类实战

欢迎大家来到<图像分类>专栏,今天讲述基于pytorch的细粒度图像分类实战! 作者&编辑 | 郭冰洋 1 简介针对传统的多类别图像分类任务,经典的CNN网络已经取得了非常优异的 ...
23个优秀的机器学习训练公共数据集

以下是这 23 个公共数据集: 帕尔默企鹅数据集共享单车需求数据集葡萄酒分类数据集波士顿住房数据集电离层数据集 Fashion MNIST 数据集猫与狗数据集威斯康星州乳腺癌(诊断)数据集 ...
姚明退休后可以从NBA领多少钱？最高一年能拿近20万美金

众所周知,NBA球员虽然在联盟打球的那几年能赚到不少钱,但是由于退役之后失去了收入的来源,加上之前留下大手大脚的消费习惯,不少球员退役没过两年就破产了.因此,NBA建立了出色的保障体系制度,就是为了确 ...
2020运城新盘 | 中银大道昶(chang)安府就位，一期住宅13栋高层近20万方！

尘埃落定,谜底揭开-- 大家猜测已久的中银路与条山街交会处西南角(YAG-1806)地块,终于有了新消息. 自8月初,经过了一个月的挂牌公告期之后,9月4日,YAG-1806地块被山西晋祥瑞业房地产开 ...
近20万页的中国古籍善本被找回，“流浪”...

近20万页的中国古籍善本被找回,"流浪"上百年,这次国人沸腾了! 中华五千年的历史天空中,成千上万部古籍璀璨夺目.但到了近代却历经战火.动乱,流离失所,被美国.日本等地上百家博物馆 ...
中国“手机之城”：从业人员近20万人，年产量在3亿部以上

业界流传这么一句话:"全国智能手机看广东,广东手机看东莞."东莞聚集了华为终端.OPPO.vivo等千亿级智能手机企业.据悉,全球每4部智能手机就有1部出自东莞,有成千上万的上下游 ...
近20万辆儿童车被召回！你家孩子还在骑吗？

作为"新晋网红产品",近几年来儿童平衡车火爆家长圈. 平衡车外形看着像儿童自行车,但它没有脚踏板和车链,所以得靠孩子双腿蹬地来骑行.很多家长对它的感觉就是:好玩,能锻炼运动能力,对 ...
近20万尾国产三文鱼预计今年5月份上市，青岛国家深远海养殖试验区进入发展新阶段

"'深蓝1号'养殖的国产三文鱼马上就要分批上市了."近日,青岛海洋投资集团项目负责人介绍到.从董家口港往外约120海里,是青岛国家深远海绿色养殖试验区,也是目前国内唯一的深远海养殖 ...
损失近20万，兰海高速一货车爆胎，4万只土碗散落一地

本文转自[贵阳晚报]: 4月5日中午,一辆载有4万只土碗的货车,在兰海高速遵义三合段爆胎后冲出公路,车内土碗摔了一地,货车也几乎报废.据悉,该货车并未超载,爆胎原因正在调查中. 4月5日,清明小长假最 ...
若开邦查获近20万颗麻黄素毒品，一名毒贩被抓获

孟都,6月16日消息: 6月14日晚上,缅甸若开邦孟都镇(ရခိုင်ပြည်နယ် မောင်တောမြို့)查获估值为2.9亿缅币的麻黄素毒品,数量近20万颗. 消息称,6月14日晚上8点半左右 ...
5419例昨日近20万人接种疫苗职场感染68%为外籍人士

马来西亚卫生总监诺希山15日宣布,截止到今天中午12时,今日全马新增新冠肺炎确诊病例5419例,其中(雪兰莪1996例,吉隆坡650例,砂劳越718例,柔佛366例,吉兰丹245例,槟城124例,吉打 ...

好资源！近 20 万本 txt 书籍的语料库，可用于 GPT 模型训练和语义分析

相关推荐