BookCorpus
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/soskek/bookcorpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了7000本小说,总计约4500万有序句子,旨在用于训练基于循环神经网络(RNN)的模型,以学习高质量的句子表示。其规模达到了4500万句子,任务专注于为学习句子表示训练模型。
This dataset contains 7,000 novels, totaling approximately 45 million ordered sentences. It is intended for training Recurrent Neural Network (RNN)-based models to learn high-quality sentence representations. Given its scale of 45 million sentences, the core task of this dataset is to train models for sentence representation learning.
提供机构:
BookCorpus
搜集汇总
数据集介绍

背景与挑战
背景概述
BookCorpus是一个大型文本语料库,主要用于无监督学习,特别是句子编码器/解码器的训练。该数据集最初来源于smashwords.com,但已不再公开分发,该仓库提供了爬取和生成类似数据集的脚本和工具。
以上内容由遇见数据集搜集并总结生成



