SF-Corpus/EF_Chapters_and_Chunks
收藏Hugging Face2023-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SF-Corpus/EF_Chapters_and_Chunks
下载链接
链接失效反馈官方服务:
资源简介:
SF Nexus Extracted Features: Chapters and Chunks数据集包含403本20世纪中叶的科幻书籍的文本和元数据,这些书籍来自Temple University Libraries的Paskow Science Fiction Collection。书籍经过数字化和清理后,被分解为章节和大约1000字的文本块,以优化主题建模和其他NLP任务的性能。每个数据行包含一个文本块及其相关的元数据,如标题、作者和出版信息。数据集主要用于教育和研究目的,且不提供受版权保护的作品的消费。
提供机构:
SF-Corpus
原始信息汇总
数据集概述
数据集名称
SF Nexus Extracted Features: Chapters and Chunks
数据集描述
该数据集包含从403本20世纪中叶的科幻小说中提取的文本和元数据,这些书籍最初由Temple University Libraries的Paskow Science Fiction Collection数字化。数据集中的每本书被分割成章节,然后进一步分割成约1000字的文本块。每个数据集条目包含一个文本块及其相关的元数据,如书名、作者和出版年份。
数据集结构
数据集包含以下字段:
- Unnamed: 文本的唯一ID
- Title: 文本来源的书籍标题
- Author: 文本来源的书籍作者
- Pub Year: 书籍首次出版的日期
- Chapter: 文本来源的书籍章节
- Chunk: 文本块的编号
- Text: 从书籍中提取的文本块
- Clean Text: 经过清理的文本块,包括小写转换和去除标点、数字及多余空格
- Chunk Word Count: 文本块中的单词数量
数据集语言
英语
数据集来源
数据集来源于Temple University Libraries的Paskow Science Fiction Collection,这是一个主要包含二战后,特别是新波时代(通常指1964-1980年)的大众市场科幻作品的收藏。
数据集使用注意事项
本数据集仅展示受版权保护的虚构作品的提取特征,不提供任何受版权保护的作品供消费。这些数字化文件仅供教育和研究目的使用。



