five

19-20MetaPNC

收藏
github2023-12-28 更新2024-05-31 收录
下载链接:
https://github.com/CHC-Computations/19-20MetaPNC
下载链接
链接失效反馈
官方服务:
资源简介:
19-20MetaPNC是一个包含19世纪和20世纪波兰小说的元数据丰富的语料库,收录了1000部原版波兰小说,首次出版于1864年至1939年间,故事背景设定在1815年之后。该语料库遵循Linked Open Data标准,不以.txt格式发布文本,而是通过知识图谱以Turtle (.ttl)格式提供访问,每个文本单独链接。

The 19-20MetaPNC is a metadata-rich corpus comprising 1,000 original Polish novels from the 19th and 20th centuries, first published between 1864 and 1939, with narratives set after 1815. This corpus adheres to the Linked Open Data standards and does not release texts in .txt format. Instead, it provides access through a knowledge graph in Turtle (.ttl) format, with each text individually linked.
创建时间:
2023-07-07
原始信息汇总

数据集概述

名称: 19-20MetaPNC 全称: Metadata-enriched Polish Novel Corpus from the 19th and 20th centuries 版本: v1.0.1

数据集内容

  • 包含小说数量: 1,000部
  • 语言: 波兰语
  • 出版时间: 1864年至1939年
  • 故事背景时间: 1815年之后

数据集结构

  • 格式: 知识图谱,采用Turtle (.ttl)格式
  • 访问方式: 通过知识图谱链接单独访问每部小说
  • 代码: 提供fetch-data.py脚本,用于从提供者处直接下载文本数据

数据集来源

  1. Polish ELTeC subcorpus: 100部小说,TEI格式
  2. Wolne Lektury: 193部小说,自定义XML格式
  3. Wikisource: 225部小说,MediaWiki格式
  4. Polona: 约6,000部小说,提供印刷书籍的扫描及其OCR衍生的文本层

数据集平衡标准

  • 历史和地理平衡: 根据出版日期和地点进行平衡
  • 出版日期: 分为三个文学时期,每个时期至少占20%
    • Positivism (1864–1890)
    • Young Poland (1890–1918)
    • Interwar Period (1918–1939)
  • 性别: 女性作者占比10%至50%
  • 出版地点: 三个分区,每个分区至少占15%
  • 接收水平: 根据重印次数进行分类

数据集版权

  • 知识图谱和代码: 根据Creative Commons Attribution International 4.0 licence (CC BY)发布
  • 小说文本: 公共领域

数据集引用

  • 作者: Agnieszka Karlińska, Cezary Rosiński, Jan Wieczorek, Patryk Hubar, Jan Kocoń, Marek Kubis, Stanisław Woźniak, Arkadiusz Margraf, Wiktor Walentynowicz
  • 出版年份: 2022
  • 标题: Towards a contextualised spatial-diachronic history of literature: mapping emotional representations of the city and the country in Polish fiction from 1864 to 1939
  • 会议: 6th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature
  • 页码: 115–125
  • 出版商: International Conference on Computational Linguistics
搜集汇总
数据集介绍
main_image_url
构建方式
19-20MetaPNC数据集的构建过程体现了多源数据整合与精细筛选的严谨性。该数据集从多个权威来源获取文本,包括波兰ELTeC子语料库、Wolne Lektury图书馆、波兰版Wikisource项目以及波兰国家图书馆的Polona数字图书馆。通过合并多卷本小说并剔除不符合时间范围或非小说类文本,最终筛选出1,707部独特小说。为确保语料库的历史与地理平衡,数据集进一步依据出版日期、作者性别、出版地点及接受程度等标准进行优化,最终形成包含1,000部小说的语料库。
使用方法
19-20MetaPNC数据集的使用方法便捷且灵活。用户可通过提供的`fetch-data.py`脚本直接从数据提供方获取文本,该脚本依赖于RDFLib和Requests库。数据集以知识图谱形式发布,用户可通过Turtle格式文件访问每部小说的详细信息,包括作者、出版地点、文学时期等元数据。此外,数据集还支持通过TCO本体进行语义查询,便于用户从多维度探索文本之间的关系。数据集遵循Creative Commons Attribution 4.0国际许可,确保其开放性与可复用性。
背景与挑战
背景概述
19-20MetaPNC数据集是一个专注于19世纪至20世纪波兰小说的元数据增强语料库,由波兰波兹南亚当·密茨凯维奇大学、波兰科学院文学研究所等机构的研究人员共同创建。该数据集收录了1864年至1939年间首次出版的1000部波兰小说,涵盖了波兰文学史上的实证主义、青年波兰和两次世界大战之间的三个重要时期。通过遵循关联开放数据(LOD)标准,数据集以知识图谱的形式发布,采用Turtle格式进行存储,确保了数据的互操作性和可扩展性。该数据集的构建旨在为文学研究、情感分析以及历史地理学等领域提供丰富的文本资源,推动了波兰文学研究的数字化进程。
当前挑战
19-20MetaPNC数据集在构建过程中面临多重挑战。首先,数据来源的多样性和格式不统一增加了数据整合的复杂性,例如来自波兰ELTeC子语料库的TEI格式文本、Wolne Lektury库的XML格式文本以及Wikisource项目的MediaWiki格式文本。其次,数据清洗和去重工作耗费大量资源,需排除非小说类文本、时间范围不符的文本以及重复版本。此外,数据集的平衡性设计也极具挑战,需在文学时期、作者性别、出版地点和接受程度等多个维度上实现合理分布。最后,知识图谱的构建要求对文本元数据进行精确标注和关联,这对语义网技术的应用提出了较高要求。
常用场景
经典使用场景
19-20MetaPNC数据集在文学研究和数字人文领域具有广泛的应用。该数据集通过知识图谱的形式,提供了19世纪至20世纪波兰小说的丰富元数据,使得研究者能够深入分析文学作品的历史背景、作者信息以及地理分布。这种结构化的数据形式特别适用于文本挖掘、情感分析和文学史研究,为学者提供了一个多维度的研究视角。
解决学术问题
19-20MetaPNC数据集解决了文学研究中常见的文本数据获取和结构化问题。通过提供详细的元数据和平衡的文本样本,该数据集帮助研究者克服了传统文学研究中数据分散、格式不统一的难题。此外,数据集的时间跨度和地理分布平衡性,使得研究者能够进行跨时代、跨地域的文学比较研究,推动了文学史研究的深入发展。
实际应用
在实际应用中,19-20MetaPNC数据集被广泛用于教育、文化传播和数字图书馆建设。教育机构可以利用该数据集进行文学课程的设计和教学,帮助学生更好地理解波兰文学的历史脉络。文化传播机构则可以通过数据集的元数据,策划相关的展览和活动,促进波兰文化的国际传播。数字图书馆则可以利用该数据集,构建更加智能化的文献检索系统,提升用户体验。
数据集最近研究
最新研究方向
在文学与计算语言学的交叉领域,19-20MetaPNC数据集为研究19世纪至20世纪波兰小说的情感表达与空间叙事提供了丰富的资源。该数据集通过知识图谱的形式,结合了Linked Open Data(LOD)标准,使得研究者能够深入挖掘文本中的时空信息与情感映射。近年来,研究者们利用该数据集探索了波兰小说中城市与乡村情感表征的演变,揭示了不同历史时期文学作品中情感与地理空间的复杂关系。这一研究方向不仅推动了文学研究的数字化进程,也为跨学科的文化遗产研究提供了新的视角与方法。通过结合语义网技术与文本分析,19-20MetaPNC数据集在文学情感计算与空间叙事分析领域展现了重要的学术价值与应用潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作