five

SF-Corpus/EF_Chapters_and_Chunks

收藏
Hugging Face2023-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SF-Corpus/EF_Chapters_and_Chunks
下载链接
链接失效反馈
官方服务:
资源简介:
SF Nexus Extracted Features: Chapters and Chunks数据集包含403本20世纪中叶的科幻书籍的文本和元数据,这些书籍来自Temple University Libraries的Paskow Science Fiction Collection。书籍经过数字化和清理后,被分解为章节和大约1000字的文本块,以优化主题建模和其他NLP任务的性能。每个数据行包含一个文本块及其相关的元数据,如标题、作者和出版信息。数据集主要用于教育和研究目的,且不提供受版权保护的作品的消费。
提供机构:
SF-Corpus
原始信息汇总

数据集概述

数据集名称

SF Nexus Extracted Features: Chapters and Chunks

数据集描述

该数据集包含从403本20世纪中叶的科幻小说中提取的文本和元数据,这些书籍最初由Temple University Libraries的Paskow Science Fiction Collection数字化。数据集中的每本书被分割成章节,然后进一步分割成约1000字的文本块。每个数据集条目包含一个文本块及其相关的元数据,如书名、作者和出版年份。

数据集结构

数据集包含以下字段:

  • Unnamed: 文本的唯一ID
  • Title: 文本来源的书籍标题
  • Author: 文本来源的书籍作者
  • Pub Year: 书籍首次出版的日期
  • Chapter: 文本来源的书籍章节
  • Chunk: 文本块的编号
  • Text: 从书籍中提取的文本块
  • Clean Text: 经过清理的文本块,包括小写转换和去除标点、数字及多余空格
  • Chunk Word Count: 文本块中的单词数量

数据集语言

英语

数据集来源

数据集来源于Temple University Libraries的Paskow Science Fiction Collection,这是一个主要包含二战后,特别是新波时代(通常指1964-1980年)的大众市场科幻作品的收藏。

数据集使用注意事项

本数据集仅展示受版权保护的虚构作品的提取特征,不提供任何受版权保护的作品供消费。这些数字化文件仅供教育和研究目的使用。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作