ELTE Folk Song Corpus

github2024-03-14 更新2024-05-31 收录

下载链接：

https://github.com/ELTE-DH/folk-song-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

ELTE民歌语料库是由Eötvös Loránd大学数字人文系开发的数据库，目前包含2390首匈牙利民歌，以及文本的声音设备和单词的语法特征，以XML格式（TEI和非TEI XML格式）存储。

The ELTE Folk Song Corpus is a database developed by the Department of Digital Humanities at Eötvös Loránd University. It currently contains 2,390 Hungarian folk songs, along with textual sound devices and grammatical features of words, stored in XML format (both TEI and non-TEI XML formats).

创建时间：

2022-02-15

原始信息汇总

ELTE Folk Song Corpus 概述

数据集基本信息

开发机构：Eötvös Loránd University 的 Department of Digital Humanities
数据内容：2390首匈牙利民歌，包含文本的声音设备和词汇的语法特征
格式：XML，包括TEI和非TEI格式
数据量：
- 民歌数量：2390
- 词汇数量：113,565
- 标记数量：148,524

数据集结构与注释层次

层次1 - 结构单元注释

<head>: 标题
<lg>: 诗节
<l>: 行
<p>: 副标题、引文、分隔符、编辑注释

层次2 - 词汇化和词汇语法特征注释

<w>: 词
<pc>: 标点符号
@lemma: 词根
@pos: 词性
@msd: 形态句法特征（Universal Dependencies格式）

层次3 - 声音设备注释

@rhyme: 韵律模式
@real: 节奏（0: 短音节; 1: 长音节）
<spanGrp type="phonStructures">: 词汇的语音特征的独立注释
<span>: 词汇的语音特征的独立注释
- 内容：词汇的语音表示
@subtype: 音节数
@type: 元音类型
@target: 被注释词汇的xml:id
<linkGrp type="rhymePairs">: 韵律对的独立注释
<link>: 韵律对的独立注释
<spanGrp type="alliterations">: 押韵的独立注释
<span>: 押韵的独立注释

层次4 - TEI到非TEI格式的转换

通过更改某些元素和属性的名称和位置，并添加进一步的注释，使处理更简便，但无法以有效的TEI XML格式表达。
新增注释包括：
- @div_numStanza: 诗中的诗节数
- @div_numLine: 诗中的行数
- @div_numWord: 诗中的词汇数
- @div_numSyll: 诗中的音节数
- @div_numShortSyll: 诗中的短音节数
- @div_numLongSyll: 诗中的长音节数
- @div_rhyme: 诗的韵律模式
- @div_syllPattern: 诗中行的音节数
- @lg_numLine: 诗节中的行数
- @lg_numWord: 诗节中的词汇数
- @lg_numSyll: 诗节中的音节数
- @lg_numShortSyll: 诗节中的短音节数
- @lg_numLongSyll: 诗节中的长音节数
- @lg_syllPattern: 诗节中行的音节数
- @l_numWord: 行中的词汇数
- @l_numSyll: 行中的音节数
- @l_numShortSyll: 行中的短音节数
- @l_numLongSyll: 行中的长音节数
- @w_numSyll: 词汇的音节数
- @phonType: 词汇中的元音类型
- @phonStruct: 词汇的语音表示
- <rhymePairs>: 韵律对的独立注释
- <rhymePair>: 韵律对的独立注释
- <firstRhyme>, <secondRhyme>: 韵律对的第一和第二词汇的独立注释
- @rhyme_lemma: 韵律词汇的词根
- @rhyme_pos: 韵律词汇的词性
- @rhyme_msd: 韵律词汇的形态句法特征
- @rhyme_numSyll: 韵律词汇的音节数
- @rhyme_phonType: 韵律词汇中的元音类型
- @rhyme_phonStruct: 韵律词汇的语音表示
- <alliterations>: 押韵的独立注释
- <alliteration>: 押韵的独立注释
- @allStruct: 押韵的结构
- @posTags: 押韵词汇的词性
- @msdTags: 押韵词汇的形态句法特征
- @lemmas: 押韵词汇的词根

搜集汇总

数据集介绍

构建方式

ELTE Folk Song Corpus的构建过程始于匈牙利电子图书馆中《Magyar népdalok》一书的HTML文件。这些文件首先被转换为TEI XML格式，随后通过匈牙利文本处理工具链e-magyar进行分词和词法特征标注。在此基础上，进一步标注了诗歌的韵律模式、押韵对、行节奏、头韵以及单词的语音特征。最终，通过调整部分元素和属性的名称与位置，将TEI格式转换为非TEI格式，以便于处理。

特点

ELTE Folk Song Corpus包含了2390首匈牙利民歌，涵盖了113,565个单词和148,524个标记。该数据集以XML格式存储，分为四个层级：第一层级标注了诗歌的结构单元，第二层级进行了分词和词法特征标注，第三层级标注了语音特征，第四层级则转换为非TEI格式并添加了更多诗歌特征的注释。数据集不仅提供了丰富的语言学信息，还详细记录了诗歌的韵律和语音特征，为研究匈牙利民歌的语音学和韵律学提供了宝贵资源。

使用方法

使用ELTE Folk Song Corpus时，用户可以通过解析XML文件获取诗歌的结构、词法特征、韵律模式等信息。数据集的分层级设计使得用户可以根据研究需求选择不同层级的注释信息。例如，研究语音学的学者可以重点关注第三层级的语音特征标注，而研究诗歌结构的学者则可以参考第一层级的结构单元标注。此外，数据集提供了详细的文档和示例，帮助用户快速上手并有效利用这些数据进行研究。

背景与挑战

背景概述

ELTE Folk Song Corpus是由匈牙利罗兰大学数字人文系开发的一个数据库，专注于匈牙利民间歌曲的数字化与语言学分析。该数据集包含2390首匈牙利民间歌曲，涵盖了文本的语音设备、词汇的语法特征等多层次注释，并以TEI和非TEI XML格式存储。其数据源来自1976年出版的《Magyar népdalok》一书的数字化版本，通过匈牙利电子图书馆获取。该数据集的构建过程涉及HTML文件到TEI XML格式的转换、词汇的语法标注、韵律模式的注释以及诗歌特征的进一步标注。ELTE Folk Song Corpus为匈牙利民间文学的研究提供了丰富的语言学资源，推动了数字人文领域对民间文化的深入探索。

当前挑战

ELTE Folk Song Corpus在构建过程中面临多重挑战。首先，匈牙利语作为一种高度屈折的语言，其语法特征复杂，词汇的形态变化多样，这为自动化的语法标注带来了技术难题。其次，民间歌曲的韵律模式、押韵对和头韵等语音特征的标注需要高度精确的语言学知识，且这些特征在不同歌曲中表现各异，增加了标注的复杂性。此外，从TEI XML格式转换为非TEI格式的过程中，需确保数据的完整性与一致性，这对数据模型的构建提出了更高的要求。最后，尽管数据集为匈牙利民间文学研究提供了重要资源，但其应用范围仍受限于匈牙利语的特定性，如何将其推广至更广泛的跨语言研究领域仍是一个待解决的挑战。

常用场景

经典使用场景

ELTE Folk Song Corpus作为匈牙利民歌的数字化资源，广泛应用于语言学、文学和音乐学的研究中。研究者通过该数据集深入分析匈牙利民歌的文本结构、韵律特征以及语法属性，探索其文化背景和语言演变。特别是在诗歌形式和韵律模式的研究中，该数据集提供了丰富的语料支持，帮助学者揭示民歌中的音韵规律和修辞手法。

实际应用

在实际应用中，ELTE Folk Song Corpus被用于开发自然语言处理工具和音乐分析软件。例如，基于该数据集的韵律标注信息，研究者可以开发自动生成民歌旋律的算法，或构建匈牙利语诗歌创作的辅助工具。此外，该数据集还被用于教育领域，作为匈牙利语言和文化教学的数字化资源，帮助学生更好地理解民歌的语言特点和艺术价值。

衍生相关工作

ELTE Folk Song Corpus的发布催生了一系列相关研究和技术开发。例如，基于该数据集的韵律标注，研究者开发了匈牙利语诗歌自动生成系统。此外，该数据集还被用于构建匈牙利语自然语言处理工具链，如e-magyar，进一步推动了匈牙利语文本处理技术的发展。这些衍生工作不仅扩展了数据集的应用范围，也为匈牙利语言和文化的数字化研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集