SF-Corpus/EF_Chapters_and_Chunks

Name: SF-Corpus/EF_Chapters_and_Chunks
Creator: SF-Corpus
Published: 2023-05-24 14:39:05
License: 暂无描述

Hugging Face2023-05-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SF-Corpus/EF_Chapters_and_Chunks

下载链接

链接失效反馈

官方服务：

资源简介：

SF Nexus Extracted Features: Chapters and Chunks数据集包含403本20世纪中叶的科幻书籍的文本和元数据，这些书籍来自Temple University Libraries的Paskow Science Fiction Collection。书籍经过数字化和清理后，被分解为章节和大约1000字的文本块，以优化主题建模和其他NLP任务的性能。每个数据行包含一个文本块及其相关的元数据，如标题、作者和出版信息。数据集主要用于教育和研究目的，且不提供受版权保护的作品的消费。

提供机构：

SF-Corpus

原始信息汇总

数据集概述

数据集名称

SF Nexus Extracted Features: Chapters and Chunks

数据集描述

该数据集包含从403本20世纪中叶的科幻小说中提取的文本和元数据，这些书籍最初由Temple University Libraries的Paskow Science Fiction Collection数字化。数据集中的每本书被分割成章节，然后进一步分割成约1000字的文本块。每个数据集条目包含一个文本块及其相关的元数据，如书名、作者和出版年份。

数据集结构

数据集包含以下字段：

Unnamed: 文本的唯一ID
Title: 文本来源的书籍标题
Author: 文本来源的书籍作者
Pub Year: 书籍首次出版的日期
Chapter: 文本来源的书籍章节
Chunk: 文本块的编号
Text: 从书籍中提取的文本块
Clean Text: 经过清理的文本块，包括小写转换和去除标点、数字及多余空格
Chunk Word Count: 文本块中的单词数量

数据集语言

英语

数据集来源

数据集来源于Temple University Libraries的Paskow Science Fiction Collection，这是一个主要包含二战后，特别是新波时代（通常指1964-1980年）的大众市场科幻作品的收藏。

数据集使用注意事项

本数据集仅展示受版权保护的虚构作品的提取特征，不提供任何受版权保护的作品供消费。这些数字化文件仅供教育和研究目的使用。

5,000+

优质数据集

54 个

任务类型

进入经典数据集