ELTE Poetry Corpus

github2024-03-14 更新2024-05-31 收录

下载链接：

https://github.com/ELTE-DH/poetry-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

ELTE Poetry Corpus是一个由Eötvös Loránd大学数字人文系开发的数据库，包含50位匈牙利经典诗人的完整诗歌，诗歌中的声音设备和单词的语法特征以XML格式（TEI和非TEI XML格式）存储。数据集不断扩展，详细记录了诗歌的结构、语法和声音特征。

The ELTE Poetry Corpus is a database developed by the Department of Digital Humanities at Eötvös Loránd University, containing the complete poems of 50 classic Hungarian poets. The phonetic devices and grammatical features of words in the poems are stored in XML format (both TEI and non-TEI XML formats). The dataset is continuously expanding, with detailed records of the structural, grammatical, and phonetic characteristics of the poems.

创建时间：

2021-04-01

原始信息汇总

ELTE Poetry Corpus 概述

数据集基本信息

开发者：Eötvös Loránd University 的 Department of Digital Humanities
内容：包含52位匈牙利经典诗人的完整诗作，以及诗歌的声韵特征和词汇的语法特性。
格式：XML（TEI和非TEI格式）
规模：
- 诗人数量：52
- 诗作数量：13,436
- 词汇数量：2,740,826
- 词条数量：3,473,102

数据集结构

文本层级

Level1：结构单元注释
- 元素：<head>（标题）, <lg>（诗节）, <l>（行）, <p>（副标题、题词、分隔符、编辑注释）
Level2：词汇分割和语法特性注释
- 元素：<w>（词）, <pc>（标点符号）
- 属性：@lemma（词条）, @pos（词性）, @msd（形态句法特征）
Level3：声韵设备注释
- 属性：@met（韵律）, @rhyme（韵律模式）, @real（节奏）
- 元素：<spanGrp type="phonStructures">（词汇音韵特征）, <spanGrp type="alliterations">（头韵）
Level4：TEI到非TEI格式的转换
- 新增属性：@met_qual（韵律质量）, @met_quan（韵律数量）, @met_quanScore（韵律评分）
- 元素和属性重命名及位置调整

附加信息

poem_texts：包含无XML注释的纯文本诗作，源自Level1文件。

数据集使用

引用：使用数据集时，应引用相关文献。
许可证：内容受CC BY-NC-ND许可。
版权：所有诗作文本均在公共领域。

搜集汇总

数据集介绍

构建方式

ELTE Poetry Corpus的构建过程体现了数字人文领域对诗歌文本的深度处理与标注。该数据集源自匈牙利电子图书馆的数字化诗歌作品，首先将这些文本转换为TEI XML格式，并手动检查结构单元的标注。随后，使用匈牙利语的自然语言处理工具链e-magyar对诗歌进行分词和词法特征标注。在此基础上，进一步标注了诗歌的韵律模式、押韵对、行节奏、头韵及音韵特征。最终，通过调整部分元素和属性的命名与位置，将TEI格式转换为非TEI格式，以便于进一步处理。

使用方法

ELTE Poetry Corpus的使用方法灵活多样，适用于多种研究场景。研究者可以通过访问数据集中的XML文件，获取诗歌的结构、词法、音韵等多层次标注信息。对于需要纯文本的研究，poem_texts文件夹提供了去除XML标注的TXT格式诗作。数据集的分层标注设计使得研究者可以根据需求选择不同层次的标注信息，例如仅关注结构单元或深入分析音韵特征。此外，数据集中的非TEI格式文件为特定研究提供了更便捷的处理方式。使用该数据集时，需遵循CC BY-NC-ND许可协议，并引用相关文献。

背景与挑战

背景概述

ELTE Poetry Corpus是由匈牙利罗兰大学数字人文系开发的一个持续扩展的诗歌数据库，旨在为匈牙利经典诗歌提供机器可读的注释数据。该数据集收录了52位匈牙利经典诗人的完整诗作，涵盖了诗歌的韵律、语法特征等多层次注释，并以TEI和非TEI XML格式存储。其数据源主要来自匈牙利电子图书馆的数字化诗歌作品，经过自动转换和人工校对后，进一步通过匈牙利自然语言处理工具链e-magyar进行词法标注。该数据集的创建不仅为匈牙利诗歌的数字化研究提供了重要资源，也为诗歌分析、韵律研究等领域开辟了新的研究方向。

当前挑战

ELTE Poetry Corpus在构建过程中面临多重挑战。首先，诗歌文本的数字化和标注需要高度的精确性，尤其是在处理匈牙利语这种形态复杂的语言时，语法和韵律的自动标注容易产生误差，需依赖大量人工校对。其次，诗歌的韵律、押韵模式等音韵特征的标注需要结合语言学理论和诗歌创作规律，这对标注工具和方法的开发提出了较高要求。此外，将TEI格式转换为非TEI格式以优化数据处理时，需在保持数据完整性和可读性的同时，解决格式兼容性问题。这些挑战不仅考验了研究团队的技术能力，也为诗歌文本的数字化处理提供了宝贵的经验。

常用场景

经典使用场景

ELTE Poetry Corpus作为匈牙利经典诗歌的数字化资源，广泛应用于文学研究和计算语言学领域。研究者通过该数据集深入分析诗歌的结构、韵律和语法特征，探索匈牙利诗歌的独特风格和演变历程。该数据集的多层次标注为诗歌的定量分析提供了丰富的数据支持，使得研究者能够从文本、音韵和语法等多个维度进行综合研究。

解决学术问题

ELTE Poetry Corpus解决了匈牙利诗歌研究中数据稀缺和标注不系统的问题。通过提供完整的诗歌文本及其多层次的语言学标注，该数据集为研究者提供了标准化的分析工具，使得匈牙利诗歌的定量研究和跨语言比较成为可能。其详细的音韵和语法标注为诗歌风格分析、韵律模式识别以及语言演变研究提供了重要的数据基础。

实际应用

在实际应用中，ELTE Poetry Corpus被用于开发诗歌分析工具和教学资源。教育机构利用该数据集设计诗歌鉴赏课程，帮助学生理解匈牙利诗歌的语言特点和艺术价值。此外，该数据集还被用于开发自然语言处理模型，特别是针对匈牙利语的文本分析和生成任务，为语言技术的研究和应用提供了重要支持。

数据集最近研究