Multimodal Corpus of Shakespeare and Milton

Name: Multimodal Corpus of Shakespeare and Milton
Creator: 哥本哈根大学语言技术中心（CST）北欧研究与语言学系（NorS）
Published: 2024-07-26 21:30:24
License: 暂无描述

arXiv2024-07-26 更新2024-07-30 收录

下载链接：

https://github.com/manexagirrezabal/shakespeare_milton_multimodal

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为‘Multimodal Corpus of Shakespeare and Milton’，由哥本哈根大学语言技术中心创建。数据集包含了威廉·莎士比亚和约翰·弥尔顿的诗歌文本及其对应的音频，共计约12.5小时，近100,000个tokens。数据集通过动态时间规整（DTW）等技术对文本和音频进行了详细的行、词、音节和音素级别的对齐，并包含了自动扫描分析。该数据集主要用于研究诗歌文本与音频之间的关系，特别是在韵律和音韵学领域的应用。

This dataset, named 'Multimodal Corpus of Shakespeare and Milton', was developed by the Centre for Language Technology at the University of Copenhagen. It encompasses poetic texts and their paired audio recordings created by William Shakespeare and John Milton, with a total duration of approximately 12.5 hours and nearly 100,000 tokens. Detailed alignment at the line, word, syllable, and phoneme levels between the text and audio has been performed using techniques including Dynamic Time Warping (DTW), and the corpus also includes automatic scansion analysis. This corpus is primarily utilized for research on the relationship between poetic texts and audio, with particular focus on applications in prosody and phonology.

提供机构：

哥本哈根大学语言技术中心（CST）北欧研究与语言学系（NorS）

创建时间：

2024-07-26

搜集汇总

数据集介绍

构建方式

该数据集通过收集莎士比亚和米尔顿的诗歌作品，以及相应的公开领域音频文件，构建了一个包含文本和音频的多模态语料库。数据集包括了诗歌的原始文本、行、词、音节和音素的表示，并且这些信息都与音频信息进行了对齐。此外，数据集还包含了自动扫描仪对诗歌的韵律分析结果。

使用方法

使用该数据集的方法包括：首先，用户可以从网站中选择作者和诗歌；其次，用户可以查看诗歌的文本和扫描结果，并可以点击文本中的任何位置来播放从该位置开始的诗歌朗诵；最后，数据集提供了丰富的信息，可以用于诗歌的韵律分析，以及探索文本和音频信息之间的关系。

背景与挑战

背景概述

Multimodal Corpus of Shakespeare and Milton是一个由Manex Agirrezabal领导的团队在2024年创建的多模态数据集。该数据集包含莎士比亚和弥尔顿的诗歌文本以及对应的公共领域音频文件。这些诗歌文本被分割为原始文本、行、词、音节和音素，并与音频信息对齐。数据集还包含了自动扫描结果，旨在帮助研究文本与音频之间的关系。该数据集的创建目的是为了提供一个相关的资源，以便研究社区能够探索诗歌的节奏和声音是如何实现的。

当前挑战

在构建Multimodal Corpus of Shakespeare and Milton数据集的过程中，研究人员面临了多个挑战。首先，需要对音频和文本进行精确对齐，这要求使用动态时间规整（Dynamic Time Warping）等技术。其次，音素级别的对齐需要使用 Hidden Markov Model（HMM）基础的工具，如HTK。此外，自动扫描工具在处理未识别词汇时可能会出现错误，这会影响音节的计数。最后，数据集的扩展和多样化也是一个挑战，包括增加更多诗人的作品以及视觉信息的整合。

常用场景

经典使用场景

该数据集最经典的使用场景是分析莎士比亚和米尔顿的诗作中的节奏和韵律。通过将文本和音频进行对齐，研究人员可以探究诗歌的节奏模式，如抑扬顿挫、韵脚等，以及这些模式在朗读中的体现。

解决学术问题

该数据集解决了如何将诗歌的文本和音频有效结合，进行节奏分析的问题。它为研究诗歌的节奏和韵律提供了一个可靠的多模态资源，使得研究者能够量化分析诗歌的节奏模式，并探究这些模式与语音的关系。

实际应用

在实际应用中，该数据集可以用于开发诗歌朗读的辅助工具，如自动标注诗歌的节奏和韵律，或者创建互动式的诗歌学习平台，帮助学习者更好地理解和欣赏诗歌。

数据集最近研究