Star Wars Thematic Corpus (SWTC)
收藏github2023-11-09 更新2024-05-31 收录
下载链接:
https://github.com/Computational-Cognitive-Musicology-Lab/Star-Wars-Thematic-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了从完整的星球大战三部曲(第I-IX集)中提取的主要主题的旋律和和声转录。共有64个不同的主题,每个主题都有自己的文件,支持多种格式(.sib, .musicxml, .krn),主要的人机可读编码为humdrum格式。
This dataset comprises melodic and harmonic transcriptions of the main themes extracted from the complete Star Wars trilogy (Episodes I-IX). It includes a total of 64 distinct themes, each available in its own file and supported in multiple formats (.sib, .musicxml, .krn), with the primary human-readable encoding being in the humdrum format.
创建时间:
2021-12-04
原始信息汇总
数据集概述
数据集名称
Star Wars Thematic Corpus (SWTC) - version 1.0
数据集内容
该数据集包含《星球大战》系列电影(I至IX集)中主要主题的旋律和和声转录。共有64个不同的主题,每个主题都有自己的文件,支持多种格式(.sib, .musicxml, .krn),主要采用humdrum格式进行人类和计算机可读的编码。
文件格式
- Sibelius Files: 最初数字化的格式,用于初始的和声和形式转录。
- XML: 由Sibelius批量导出的未压缩musicxml文件,便于在其他音乐符号程序中查看。
- Krns: 通过musicxml2hum命令将musicxml文件转换为kern格式,然后通过脚本处理和手动编辑以确保格式和符号的一致性。
目录组织
数据集根据电影三部曲分为三个主要文件夹:
- Original Trilogy Theme: 包含来自IV、V、VI集的主题。
- Prequel Trilogy: 包含来自I、II、III集的主题。
- Sequel Trilogy: 包含来自VII、VIII、IX集的主题。
Kern文件结构
每个文件包含以下类型的spine:
**kern: 旋律信息。**harte: 基于Harte, 2010的和弦标签。**harm: 基于**harm格式的罗马数字。**altharm: 替代的罗马数字解释。**pedal: 踏板音指示。**cadence: 终止信息和形式边界标记。**text: 任何额外的信息或注释。
元数据
每个文件顶部包含相关的书目元数据,包括作曲家、标题、相关作品、创作日期、转录者和数字编码者。
Harte编码
引入了一种新的非功能性和声编码,旨在促进数据共享,并为包含传统罗马数字解释不适当或不一致的和声的歌曲提供更强大的编码方法。
脚本
数据集包含用于编辑和修正从musicxml转换为humdrum格式的krn文件的脚本。
许可证
本数据集遵循Creative Commons Attribution-NonCommercial 4.0 International License。
搜集汇总
数据集介绍

构建方式
《星球大战主题语料库》(Star Wars Thematic Corpus, SWTC)的构建始于Frank Lehman对《星球大战》三部曲中主要主题的旋律与和声转录。这些转录最初以Sibelius格式完成,并随后扩展为不受限制的版本,最终转换为humdrum格式。Claire Arthur和John McNarmara负责将Sibelius文件转换为humdrum格式,并进行了手动审查和编辑,以确保格式和符号的一致性。数据集包含64个主题,每个主题以多种格式(.sib, .musicxml, .krn)提供,主要采用humdrum格式进行编码。
使用方法
SWTC数据集的使用方法多样,适用于音乐信息检索、音乐分析和教育等领域。用户可以通过humdrum工具包(如Verovio Humdrum Viewer和humdrumR)对数据集进行分析和可视化。数据集中的文件按三部曲分类,用户可以根据需要选择特定主题进行分析。此外,数据集提供了多种格式的文件,便于在不同音乐软件(如Finale、MuseScore)中查看和编辑。用户还可以利用提供的脚本(如Add_header.py、Rn2harm.py)对文件进行进一步处理和转换,以满足特定的研究需求。
背景与挑战
背景概述
《星球大战主题语料库》(Star Wars Thematic Corpus, SWTC)是由Frank Lehman于2022年创建的一个音乐数据集,专注于《星球大战》系列电影中的主题旋律与和声转录。该数据集涵盖了《星球大战》三部曲(I-IX)中的64个主题,每个主题以多种格式(如.sib、.musicxml、.krn)提供,并以humdrum格式为主要编码方式。该语料库的创建旨在为音乐信息检索(MIR)领域提供一种标准化的和弦符号表示方法,特别是针对流行、爵士和电影音乐中的非功能和声。其影响力不仅限于音乐分析领域,还为电影音乐研究提供了重要的数据支持。
当前挑战
SWTC数据集在构建过程中面临了多重挑战。首先,转录和编码过程中需要对复杂的和弦结构进行精确表示,尤其是在非功能和声的背景下,传统的罗马数字和声分析难以适用。其次,数据集在格式转换过程中,从Sibelius到humdrum格式的转换需要大量的手动校对和调整,以确保数据的准确性和一致性。此外,Harte编码系统的引入虽然为和弦表示提供了灵活性,但其文档中的模糊性也导致了编码过程中的不确定性,特别是在表示低音区间和默认音程时。这些挑战不仅影响了数据集的构建效率,也对后续的计算分析提出了更高的要求。
常用场景
经典使用场景
Star Wars Thematic Corpus (SWTC) 数据集在音乐信息检索(MIR)和音乐理论分析领域具有广泛的应用。该数据集包含了《星球大战》系列电影中64个主要主题的旋律与和声转录,涵盖了前传、正传和后传三部曲。研究者可以利用这些数据,深入分析电影音乐中的和声结构、旋律发展以及主题变奏,从而揭示电影音乐创作中的艺术手法与情感表达。
解决学术问题
SWTC数据集为音乐理论研究者提供了一个标准化的资源,解决了电影音乐分析和跨媒体音乐研究中的诸多挑战。通过其丰富的和声标注与旋律信息,研究者能够深入探讨电影音乐中的和声功能、调性变化以及主题变奏的规律。此外,该数据集还为音乐信息检索领域的算法开发提供了高质量的标注数据,推动了自动音乐分析与生成技术的发展。
实际应用
在实际应用中,SWTC数据集被广泛用于音乐教育、电影音乐创作以及音乐分析软件的开发。教育工作者可以利用该数据集向学生展示电影音乐中的和声与旋律结构,帮助学生理解音乐创作中的艺术手法。此外,电影作曲家可以从中汲取灵感,借鉴《星球大战》系列中的经典主题创作手法。音乐分析软件开发者则可以利用该数据集测试和优化其算法,提升软件的准确性与实用性。
数据集最近研究
最新研究方向
近年来,Star Wars Thematic Corpus (SWTC) 数据集在音乐信息检索(MIR)领域引起了广泛关注。该数据集包含了《星球大战》系列电影中64个主要主题的旋律与和声转录,涵盖了前传、正传和后传三部曲。其独特的Harte编码格式为非功能和声的音乐作品提供了更为精确的表示方法,尤其适用于流行音乐、爵士乐和电影音乐的分析。当前的研究方向主要集中在利用该数据集进行自动化音乐分析、和声模式识别以及跨媒体音乐情感分析。此外,SWTC还为音乐生成模型提供了丰富的训练数据,推动了基于深度学习的音乐创作技术的发展。该数据集的发布不仅为音乐理论研究者提供了宝贵的资源,也为音乐信息检索领域的算法优化和模型训练提供了新的可能性。
以上内容由遇见数据集搜集并总结生成



