SF-Corpus/EF_Named_Entities
收藏数据集概述
数据集名称
SF Nexus Extracted Features: Named Entities
数据集描述
数据集摘要
SF Nexus EF Named Entities 数据集包含从403本二十世纪中叶的科幻小说中提取的命名实体文件,这些书籍最初由Temple University Libraries的Paskow Science Fiction Collection数字化而来。经过数字化后,书籍使用Abbyy FineReader进行清理。本仓库中的数据框使用BookNLP生成,包含文本中命名实体的信息。
关于SF Nexus Corpus
Paskow Science Fiction Collection主要包含二战后的材料,特别是新波时代(通常指1964-1980年)的大众市场作品。数字化文本也被纳入HathiTrust的仓库进行保存和数据管理;它们现在可以在HathiTrust的Temple页面上查看,用于非消费性研究。
语言
英语
数据集结构
该数据集包含403个csv文件,每个文件包含SF语料库中每个文本的命名实体信息。
数据字段
- COREF: int 每个实体使用的唯一标识符
- start_token: int 实体名称的起始标记
- end_token: int 实体名称的结束标记;对于单字实体,与起始标记相同;对于每个附加的单词,增加一个
- prop: str 命名实体的词性(例如:PROP = 专有名词)
- cat: str 文本被标记为的实体类型(例如:LOC = 位置)
- text: str 对应于实体的文本
数据集创建
来源数据
Loretta C. Duckworth Scholars Studio与Temple University Libraries的Special Collections Research Center (SCRC)和Digital Library Initiatives (DLI)合作,构建了一个受版权保护的科幻文学数字化语料库。SCRC除了拥有大量的城市档案外,还收藏了大量科幻文学作品。Paskow Science Fiction Collection最初于1972年建立,当时Temple从一位校友David C. Paskow那里购买了5,000本科幻平装书。随后的捐赠,包括大量的科幻迷杂志和科幻作家如John Varley和Stanley G. Weinbaum的论文,扩大了收藏的规模和流派范围。
使用数据的考虑
此数据卡仅展示受版权保护的虚构作品的提取特征;不提供任何受版权保护的作品供消费。这些数字化文件可供教育和研究目的使用。Temple University Libraries在可能的情况下对权利持有者进行了归属。如果您是我们的数字化收藏中未归属材料的权利持有者,请告知我们,以便我们维护这些材料的准确信息。



