thebooort/spanish_golden_age_sonnets

Name: thebooort/spanish_golden_age_sonnets
Creator: thebooort
Published: 2022-08-17 11:56:34
License: 暂无描述

Hugging Face2022-08-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/thebooort/spanish_golden_age_sonnets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含16至17世纪用西班牙语写的十四行诗，以.csv格式保存，原始数据为.xml格式。每首十四行诗都按照TEI标准进行了注释，包括每行诗的韵律模式。数据集包含多个字段，如作者、诗标题、诗文本、韵律模式等。数据集目前包含超过5000首十四行诗，超过71000行诗。韵律模式的注释是半自动完成的，部分数据已经过手动验证。数据集是ADSO项目的一部分，由Fundación BBVA资助。

提供机构：

thebooort

原始信息汇总

西班牙黄金时代十四行诗语料库

简介

该语料库包含16世纪至17世纪用西班牙语创作的十四行诗。该语料库是从之前的.xml格式数据集转换为.csv格式的数据集。所有原始数据集的信息可以在其原始仓库中查阅。

每个十四行诗都按照TEI标准进行了标注。除了头部和结构信息外，每个十四行诗还包括每个诗句的特定韵律模式的形式表示。

韵律模式由非重读音节（用"-"表示）和重读音节（用"+"表示）的序列组成。因此，每个诗句的韵律模式表示如下：

"---+---+-+-"

韵律模式中的每一行对应于sonnet_text列中的一行。

列描述

author (字符串): 十四行诗的作者
sonnet_title (字符串): 十四行诗的标题
sonnet_text (字符串): 特定十四行诗的全文，按行分割（）
metric_pattern (字符串): 十四行诗的全文韵律模式，按行分割（）
reference_id (整数): 从中提取十四行诗的原始XML文件的ID
publisher (字符串): 出版者名称
editor (字符串): 编辑者名称
research_author (字符串): 主要研究作者名称
metrical_patterns_annotator (字符串): 标注检查者名称
research_group (字符串): 处理十四行诗的研究组名称

诗人

为了尽可能具有代表性，该语料库包含了16世纪和17世纪所有拥有超过10首数字化和可用十四行诗的作者。

所有文本均来自米格尔·德·塞万提斯虚拟图书馆。

目前，该语料库包含超过5,000首十四行诗（超过71,000行）。

标注

韵律模式标注是以半自动方式进行的。首先，所有十四行诗都由一个自动韵律扫描系统处理，该系统为每个诗句分配一个独特的韵律模式。其次，部分语料库已手动检查并纠正了错误。

目前，该语料库正在进行手动验证阶段，每个十四行诗都包含是否已手动检查的信息。

引用该语料库

如果您希望在学术研究中引用该语料库，请使用以下参考文献：

Navarro-Colorado, Borja; Ribes Lafoz, María, and Sánchez, Noelia (2015) "Metrical annotation of a large corpus of Spanish sonnets: representation, scansion and evaluation" 10th edition of the Language Resources and Evaluation Conference 2016 Portorož, Slovenia.

许可证

该语料库的韵律标注在Creative Commons Attribution-Non Commercial 4.0 International License下发布。

关于文本，"该数字对象受版权和/或相关权利保护。该数字对象可免费访问，但其使用受提供该对象的组织的许可条件限制。更多信息请访问http://www.cervantesvirtual.com/marco-legal/ "。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于西班牙黄金时代十四行诗的数字化文本，涵盖16至17世纪的作品。原始数据集以.xml格式存在，经过格式化处理转化为.csv格式。数据集的构建首先通过自动化的韵律扫描系统为每首诗的每个诗行分配韵律模式，然后通过人工审核部分数据集以纠正错误，并逐步进行手动验证。

特点

该数据集的特色在于，它不仅包含了诗文的全文和作者信息，还详细标注了每首诗的韵律模式，符合TEI标准。这些韵律模式以特定格式编码，表示诗行的重音和非重音音节。此外，数据集力求代表性强，包含了该时期所有拥有超过10首数字化诗歌的诗人作品，总计超过5000首十四行诗，逾71,000个诗行。

使用方法

用户可以通过HuggingFace平台直接访问和下载数据集。使用时，研究者可以依据数据集中的列描述，如作者、诗名、诗文、韵律模式等字段进行相应的文学分析和计算语言学研究。引用该数据集时，应遵循其提供的参考文献格式，并遵守Creative Commons Attribution-Non Commercial 4.0 International License的相关规定。

背景与挑战

背景概述

在文学与自然语言处理领域，西班牙黄金时代十四行诗数据集（Spanish Golden-Age Sonnets）的构建，是对十六至十七世纪西班牙文学遗产的一种数字化保存与学术研究尝试。该数据集由Navarro-Colorado Borja、Ribes Lafoz María与Sánchez Noelia等研究人员于2015年发起，依托于阿利坎特大学的ADSO项目，并在西班牙银行基金会（Fundación BBVA）的资助下完成。该数据集不仅包含了超过5000首十四行诗，而且每首诗都依据TEI标准进行了韵律模式的标注，旨在为文学作品的韵律分析、文本挖掘以及自然语言处理等领域提供宝贵的资源。

当前挑战

该数据集在构建过程中面临的挑战主要体现在：一是如何保证大规模诗歌文本的准确性与一致性，尤其是在韵律模式的自动标注与手动校正过程中；二是如何处理历史文本数字化过程中出现的多样性及变体，确保数据集的代表性。此外，数据集在领域应用中面临的挑战包括如何有效地利用这些韵律特征进行文学作品的风格分析、作者归属研究，以及如何将韵律信息融入自然语言处理模型，以提升模型对文学文本的理解与生成能力。

常用场景

经典使用场景

在文艺复兴时期文学研究领域，thebooort/spanish_golden_age_sonnets数据集作为一份珍贵的文本资源，其经典使用场景主要在于对16至17世纪西班牙黄金时代诗歌的数字化分析与研究。学者们得以通过该数据集深入探索这一时期文学的韵律特征和诗歌结构，进而对文学作品进行风格学和修辞学的深入分析。

解决学术问题

该数据集的构建解决了文学研究中对于诗歌韵律模式标注和自动分析的需求，使得研究者能够通过量化的方式，对诗歌的节奏和韵律进行系统性的研究。这对于理解诗人的创作技巧、诗歌的审美价值以及当时的文化背景具有重要意义，为文学批评和文学史研究提供了新的视角。

衍生相关工作

基于该数据集，已经衍生了一系列相关研究工作，包括韵律模式自动识别算法的开发、诗歌风格分类器的训练以及文学作品的语义分析等。这些研究进一步拓展了文学和语言学交叉领域的研究范畴，为文学作品的数字化研究开辟了新的道路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集