five

afoland/chapterized_PG

收藏
Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/afoland/chapterized_PG
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含467本来自Project Gutenberg的书籍,主要是作者在1914年之前去世的书籍。这些书籍通过Chapter Captor工具进行了章节化处理,确保章节数量正确且章节编号从1开始顺序排列。每行数据代表一本书的一个章节,包含的键有chapter_number、text、title和metadata{id},其中id是Gutenberg书籍编号,title通常不存在。

该数据集包含467本来自Project Gutenberg的书籍,主要是作者在1914年之前去世的书籍。这些书籍通过Chapter Captor工具进行了章节化处理,确保章节数量正确且章节编号从1开始顺序排列。每行数据代表一本书的一个章节,包含的键有chapter_number、text、title和metadata{id},其中id是Gutenberg书籍编号,title通常不存在。
提供机构:
afoland
原始信息汇总

数据集概述

数据来源

  • 数据集包含467本古腾堡计划(Project Gutenberg)的书籍,主要为早期作品(作者去世于1914年之前)。

数据处理

  • 书籍被Chapter Captor工具(参考文献:https://arxiv.org/abs/2011.04163)分章节处理,确保章节数量正确且章节编号从1开始顺序排列。

数据格式

  • 每行代表一本书的一个章节。
  • 数据键包括:
    • chapter_number:章节编号
    • text:章节文本
    • title:书籍标题(可能不存在)
    • metadata{"id"}:古腾堡书籍编号

许可证

  • 数据集遵循Apache-2.0许可证。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作