BookCorpus

Name: BookCorpus
Creator: BookCorpus
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/soskek/bookcorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了7000本小说，总计约4500万有序句子，旨在用于训练基于循环神经网络（RNN）的模型，以学习高质量的句子表示。其规模达到了4500万句子，任务专注于为学习句子表示训练模型。

This dataset contains 7,000 novels, totaling approximately 45 million ordered sentences. It is intended for training Recurrent Neural Network (RNN)-based models to learn high-quality sentence representations. Given its scale of 45 million sentences, the core task of this dataset is to train models for sentence representation learning.

提供机构：

BookCorpus

搜集汇总

数据集介绍

背景与挑战

背景概述

BookCorpus是一个大型文本语料库，主要用于无监督学习，特别是句子编码器/解码器的训练。该数据集最初来源于smashwords.com，但已不再公开分发，该仓库提供了爬取和生成类似数据集的脚本和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集