five

BookCorpus

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/soskek/bookcorpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了7000本小说,总计约4500万有序句子,旨在用于训练基于循环神经网络(RNN)的模型,以学习高质量的句子表示。其规模达到了4500万句子,任务专注于为学习句子表示训练模型。

This dataset contains 7,000 novels, totaling approximately 45 million ordered sentences. It is intended for training Recurrent Neural Network (RNN)-based models to learn high-quality sentence representations. Given its scale of 45 million sentences, the core task of this dataset is to train models for sentence representation learning.
提供机构:
BookCorpus
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
BookCorpus是一个大型文本语料库,主要用于无监督学习,特别是句子编码器/解码器的训练。该数据集最初来源于smashwords.com,但已不再公开分发,该仓库提供了爬取和生成类似数据集的脚本和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作