afoland/chapterized_PG
收藏Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/afoland/chapterized_PG
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含467本来自Project Gutenberg的书籍,主要是作者在1914年之前去世的书籍。这些书籍通过Chapter Captor工具进行了章节化处理,确保章节数量正确且章节编号从1开始顺序排列。每行数据代表一本书的一个章节,包含的键有chapter_number、text、title和metadata{id},其中id是Gutenberg书籍编号,title通常不存在。
该数据集包含467本来自Project Gutenberg的书籍,主要是作者在1914年之前去世的书籍。这些书籍通过Chapter Captor工具进行了章节化处理,确保章节数量正确且章节编号从1开始顺序排列。每行数据代表一本书的一个章节,包含的键有chapter_number、text、title和metadata{id},其中id是Gutenberg书籍编号,title通常不存在。
提供机构:
afoland
原始信息汇总
数据集概述
数据来源
- 数据集包含467本古腾堡计划(Project Gutenberg)的书籍,主要为早期作品(作者去世于1914年之前)。
数据处理
- 书籍被Chapter Captor工具(参考文献:https://arxiv.org/abs/2011.04163)分章节处理,确保章节数量正确且章节编号从1开始顺序排列。
数据格式
- 每行代表一本书的一个章节。
- 数据键包括:
chapter_number:章节编号text:章节文本title:书籍标题(可能不存在)metadata{"id"}:古腾堡书籍编号
许可证
- 数据集遵循Apache-2.0许可证。



