five

SF-Corpus/EF_Named_Entities

收藏
Hugging Face2023-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SF-Corpus/EF_Named_Entities
下载链接
链接失效反馈
官方服务:
资源简介:
SF Nexus EF命名实体数据集包含从Temple大学图书馆的Paskow科幻收藏中数字化并清理的403本20世纪中期科幻书籍中提取的命名实体文件。这些文件使用BookNLP生成,包含每个文本中的命名实体信息,如实体类型、位置、文本等。数据集主要用于教育和研究目的,不提供受版权保护的作品的消费。

SF Nexus EF命名实体数据集包含从Temple大学图书馆的Paskow科幻收藏中数字化并清理的403本20世纪中期科幻书籍中提取的命名实体文件。这些文件使用BookNLP生成,包含每个文本中的命名实体信息,如实体类型、位置、文本等。数据集主要用于教育和研究目的,不提供受版权保护的作品的消费。
提供机构:
SF-Corpus
原始信息汇总

数据集概述

数据集名称

SF Nexus Extracted Features: Named Entities

数据集描述

数据集摘要

SF Nexus EF Named Entities 数据集包含从403本二十世纪中叶的科幻小说中提取的命名实体文件,这些书籍最初由Temple University Libraries的Paskow Science Fiction Collection数字化而来。经过数字化后,书籍使用Abbyy FineReader进行清理。本仓库中的数据框使用BookNLP生成,包含文本中命名实体的信息。

关于SF Nexus Corpus

Paskow Science Fiction Collection主要包含二战后的材料,特别是新波时代(通常指1964-1980年)的大众市场作品。数字化文本也被纳入HathiTrust的仓库进行保存和数据管理;它们现在可以在HathiTrust的Temple页面上查看,用于非消费性研究。

语言

英语

数据集结构

该数据集包含403个csv文件,每个文件包含SF语料库中每个文本的命名实体信息。

数据字段

  • COREF: int 每个实体使用的唯一标识符
  • start_token: int 实体名称的起始标记
  • end_token: int 实体名称的结束标记;对于单字实体,与起始标记相同;对于每个附加的单词,增加一个
  • prop: str 命名实体的词性(例如:PROP = 专有名词)
  • cat: str 文本被标记为的实体类型(例如:LOC = 位置)
  • text: str 对应于实体的文本

数据集创建

来源数据

Loretta C. Duckworth Scholars Studio与Temple University Libraries的Special Collections Research Center (SCRC)和Digital Library Initiatives (DLI)合作,构建了一个受版权保护的科幻文学数字化语料库。SCRC除了拥有大量的城市档案外,还收藏了大量科幻文学作品。Paskow Science Fiction Collection最初于1972年建立,当时Temple从一位校友David C. Paskow那里购买了5,000本科幻平装书。随后的捐赠,包括大量的科幻迷杂志和科幻作家如John Varley和Stanley G. Weinbaum的论文,扩大了收藏的规模和流派范围。

使用数据的考虑

此数据卡仅展示受版权保护的虚构作品的提取特征;不提供任何受版权保护的作品供消费。这些数字化文件可供教育和研究目的使用。Temple University Libraries在可能的情况下对权利持有者进行了归属。如果您是我们的数字化收藏中未归属材料的权利持有者,请告知我们,以便我们维护这些材料的准确信息。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作