thebooort/spanish_golden_age_sonnets
收藏西班牙黄金时代十四行诗语料库
简介
该语料库包含16世纪至17世纪用西班牙语创作的十四行诗。该语料库是从之前的.xml格式数据集转换为.csv格式的数据集。所有原始数据集的信息可以在其原始仓库中查阅。
每个十四行诗都按照TEI标准进行了标注。除了头部和结构信息外,每个十四行诗还包括每个诗句的特定韵律模式的形式表示。
韵律模式由非重读音节(用"-"表示)和重读音节(用"+"表示)的序列组成。因此,每个诗句的韵律模式表示如下:
"---+---+-+-"
韵律模式中的每一行对应于sonnet_text列中的一行。
列描述
- author (字符串): 十四行诗的作者
- sonnet_title (字符串): 十四行诗的标题
- sonnet_text (字符串): 特定十四行诗的全文,按行分割( )
- metric_pattern (字符串): 十四行诗的全文韵律模式,按行分割( )
- reference_id (整数): 从中提取十四行诗的原始XML文件的ID
- publisher (字符串): 出版者名称
- editor (字符串): 编辑者名称
- research_author (字符串): 主要研究作者名称
- metrical_patterns_annotator (字符串): 标注检查者名称
- research_group (字符串): 处理十四行诗的研究组名称
诗人
为了尽可能具有代表性,该语料库包含了16世纪和17世纪所有拥有超过10首数字化和可用十四行诗的作者。
所有文本均来自米格尔·德·塞万提斯虚拟图书馆。
目前,该语料库包含超过5,000首十四行诗(超过71,000行)。
标注
韵律模式标注是以半自动方式进行的。首先,所有十四行诗都由一个自动韵律扫描系统处理,该系统为每个诗句分配一个独特的韵律模式。其次,部分语料库已手动检查并纠正了错误。
目前,该语料库正在进行手动验证阶段,每个十四行诗都包含是否已手动检查的信息。
引用该语料库
如果您希望在学术研究中引用该语料库,请使用以下参考文献:
Navarro-Colorado, Borja; Ribes Lafoz, María, and Sánchez, Noelia (2015) "Metrical annotation of a large corpus of Spanish sonnets: representation, scansion and evaluation" 10th edition of the Language Resources and Evaluation Conference 2016 Portorož, Slovenia.
许可证
该语料库的韵律标注在Creative Commons Attribution-Non Commercial 4.0 International License下发布。
关于文本,"该数字对象受版权和/或相关权利保护。该数字对象可免费访问,但其使用受提供该对象的组织的许可条件限制。更多信息请访问http://www.cervantesvirtual.com/marco-legal/ "。




