five

Corpus of Spanish Golden-Age Sonnets

收藏
github2024-05-01 更新2024-05-31 收录
下载链接:
https://github.com/bncolorado/CorpusSonetosSigloDeOro
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含16世纪至17世纪用西班牙语写的十四行诗,每首诗都按照TEI标准进行了XML注释,包括每个诗句的特定韵律模式。数据集旨在尽可能代表这一时期的文学作品,包含超过5000首十四行诗,超过71000个诗句。

This dataset comprises sonnets written in Spanish from the 16th to the 17th century, each annotated in XML according to the TEI (Text Encoding Initiative) standards, including specific metrical patterns for each verse. The dataset aims to represent the literary works of this period as comprehensively as possible, containing over 5,000 sonnets and more than 71,000 verses.
创建时间:
2015-11-27
原始信息汇总

Corpus of Spanish Golden-Age Sonnets

数据集概述

  • 时间范围:16世纪至17世纪
  • 内容:包含西班牙语创作的十四行诗
  • 格式:XML格式,遵循TEI标准
  • 特点:每首诗包含特定的韵律模式,由无重音(-)和重音(+)符号序列表示

诗人

  • 收录标准:16世纪和17世纪的作者,至少有10首数字化并可用的十四行诗
  • 来源Biblioteca Virtual Miguel de Cervantes
  • 规模:超过5,000首十四行诗(超过71,000行)

注释

  • 方法:半自动韵律模式注释
    • 首先由自动韵律扫描系统处理
    • 部分数据集手动检查并修正错误
  • 状态:正在进行手动验证,每首诗包含是否已手动检查的信息

引用方式

  • 参考文献:Navarro-Colorado, Borja; Ribes Lafoz, María, and Sánchez, Noelia (2015) "Metrical annotation of a large corpus of Spanish sonnets: representation, scansion and evaluation" 10th edition of the Language Resources and Evaluation Conference 2016 Portorož, Slovenia.

许可

  • 韵律注释:Creative Commons Attribution-Non Commercial 4.0 International License
  • 文本版权:受版权和相关权利保护,使用受提供访问的组织设定的许可条件限制。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于16至17世纪西班牙黄金时代的十四行诗,涵盖了大量具有代表性的诗人作品。为确保数据的广泛性和准确性,所有拥有超过10首数字化的十四行诗的诗人作品均被收录。数据来源自《塞万提斯虚拟图书馆》,并通过半自动化的方式进行韵律模式标注。首先,使用自动韵律扫描系统为每首诗的每一行分配特定的韵律模式,随后对部分数据进行人工校验和修正,以确保标注的准确性。
特点
该数据集的显著特点在于其详细的韵律模式标注,每首诗的每一行均以XML格式按照TEI标准进行编码,明确标记了每个音节的轻重音。此外,数据集包含了超过5000首十四行诗,总计超过71000行,提供了丰富的研究素材。每首诗还附有是否经过人工校验的信息,进一步增强了数据的可信度。
使用方法
该数据集适用于对西班牙黄金时代十四行诗的韵律和结构进行深入研究的学者和研究人员。用户可以通过解析XML格式的文件,提取每首诗的韵律模式信息,进行定量分析或构建模型。此外,数据集的韵律标注部分遵循Creative Commons Attribution-Non Commercial 4.0国际许可协议,允许非商业用途的使用,但需注明出处。
背景与挑战
背景概述
西班牙黄金时代十四行诗语料库(Corpus of Spanish Golden-Age Sonnets)是由博尔哈·纳瓦罗-科洛拉多(Borja Navarro-Colorado)、玛丽亚·里贝斯·拉福兹(María Ribes Lafoz)和诺埃利亚·桑切斯(Noelia Sánchez)等研究人员在2015年创建的,隶属于阿利坎特大学(University of Alicante)的ADSO项目,并得到Fundación BBVA的资助。该语料库汇集了16至17世纪的西班牙十四行诗,涵盖了超过5000首诗作,共计71,000余行。其核心研究问题在于通过XML格式的TEI标准对每首诗的韵律模式进行精确标注,旨在为文学与计算语言学领域的研究提供丰富的数据资源。该语料库不仅为西班牙黄金时代诗歌的韵律研究奠定了基础,还为跨学科的文本分析与计算模型构建提供了宝贵的数据支持。
当前挑战
该语料库在构建过程中面临的主要挑战包括:首先,韵律模式的自动标注依赖于复杂的计算语言学算法,尽管采用了半自动化的标注流程,但仍需通过人工校验以确保准确性。其次,由于涉及大量文本,手动校验的工作量巨大,且需要具备深厚的语言学与文学知识,这对研究人员提出了较高的专业要求。此外,语料库的规模与多样性使得数据管理与存储成为另一大挑战,尤其是在处理大规模XML文件时,如何确保数据的一致性与可访问性成为关键问题。最后,该语料库的开放性与版权问题也需谨慎处理,以平衡学术研究的需求与文本的版权保护。
常用场景
经典使用场景
该数据集的经典使用场景主要集中于文学与语言学研究领域,特别是对西班牙黄金时代十四行诗的韵律分析。研究者可以利用该数据集中的韵律模式标注,深入探讨这一时期诗歌的韵律结构、节奏变化及其与内容表达的关系。此外,该数据集还可用于开发和验证自动韵律分析工具,为诗歌的自动解析和生成提供基础数据支持。
实际应用
在实际应用中,该数据集可广泛应用于文学教育、诗歌创作辅助工具的开发以及文化遗产的数字化保护。例如,教育工作者可以利用该数据集进行诗歌韵律的教学与分析,帮助学生更好地理解诗歌的结构与美感。同时,该数据集还可为诗歌创作软件提供韵律模式的参考,辅助诗人进行创作。此外,该数据集的数字化形式为西班牙黄金时代诗歌的保存与传播提供了重要的技术支持。
衍生相关工作
基于该数据集,已衍生出多项经典工作。例如,Navarro-Colorado等人开发了一种基于该数据集的自动韵律分析系统,并在多个国际会议上发表了相关研究成果。此外,该数据集还为其他语言的诗歌韵律研究提供了参考,推动了跨语言、跨文化的诗歌韵律比较研究。未来,该数据集有望进一步应用于机器学习与自然语言处理领域,为诗歌的自动生成与风格迁移提供新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作