five

Star Wars Thematic Corpus (SWTC)|电影音乐数据集|星球大战数据集

收藏
github2023-11-09 更新2024-05-31 收录
电影音乐
星球大战
下载链接:
https://github.com/Computational-Cognitive-Musicology-Lab/Star-Wars-Thematic-Corpus
下载链接
链接失效反馈
资源简介:
该数据集包含了从完整的星球大战三部曲(第I-IX集)中提取的主要主题的旋律和和声转录。共有64个不同的主题,每个主题都有自己的文件,支持多种格式(.sib, .musicxml, .krn),主要的人机可读编码为humdrum格式。

This dataset comprises melodic and harmonic transcriptions of the main themes extracted from the complete Star Wars trilogy (Episodes I-IX). It includes a total of 64 distinct themes, each available in its own file and supported in multiple formats (.sib, .musicxml, .krn), with the primary human-readable encoding being in the humdrum format.
创建时间:
2021-12-04
原始信息汇总

数据集概述

数据集名称

Star Wars Thematic Corpus (SWTC) - version 1.0

数据集内容

该数据集包含《星球大战》系列电影(I至IX集)中主要主题的旋律和和声转录。共有64个不同的主题,每个主题都有自己的文件,支持多种格式(.sib, .musicxml, .krn),主要采用humdrum格式进行人类和计算机可读的编码。

文件格式

  • Sibelius Files: 最初数字化的格式,用于初始的和声和形式转录。
  • XML: 由Sibelius批量导出的未压缩musicxml文件,便于在其他音乐符号程序中查看。
  • Krns: 通过musicxml2hum命令将musicxml文件转换为kern格式,然后通过脚本处理和手动编辑以确保格式和符号的一致性。

目录组织

数据集根据电影三部曲分为三个主要文件夹:

  • Original Trilogy Theme: 包含来自IV、V、VI集的主题。
  • Prequel Trilogy: 包含来自I、II、III集的主题。
  • Sequel Trilogy: 包含来自VII、VIII、IX集的主题。

Kern文件结构

每个文件包含以下类型的spine:

  • **kern: 旋律信息。
  • **harte: 基于Harte, 2010的和弦标签。
  • **harm: 基于**harm格式的罗马数字。
  • **altharm: 替代的罗马数字解释。
  • **pedal: 踏板音指示。
  • **cadence: 终止信息和形式边界标记。
  • **text: 任何额外的信息或注释。

元数据

每个文件顶部包含相关的书目元数据,包括作曲家、标题、相关作品、创作日期、转录者和数字编码者。

Harte编码

引入了一种新的非功能性和声编码,旨在促进数据共享,并为包含传统罗马数字解释不适当或不一致的和声的歌曲提供更强大的编码方法。

脚本

数据集包含用于编辑和修正从musicxml转换为humdrum格式的krn文件的脚本。

许可证

本数据集遵循Creative Commons Attribution-NonCommercial 4.0 International License

AI搜集汇总
数据集介绍
main_image_url
构建方式
《星球大战主题语料库》(Star Wars Thematic Corpus, SWTC)的构建始于Frank Lehman对《星球大战》三部曲中主要主题的旋律与和声转录。这些转录最初以Sibelius格式完成,并随后扩展为不受限制的版本,最终转换为humdrum格式。Claire Arthur和John McNarmara负责将Sibelius文件转换为humdrum格式,并进行了手动审查和编辑,以确保格式和符号的一致性。数据集包含64个主题,每个主题以多种格式(.sib, .musicxml, .krn)提供,主要采用humdrum格式进行编码。
使用方法
SWTC数据集的使用方法多样,适用于音乐信息检索、音乐分析和教育等领域。用户可以通过humdrum工具包(如Verovio Humdrum Viewer和humdrumR)对数据集进行分析和可视化。数据集中的文件按三部曲分类,用户可以根据需要选择特定主题进行分析。此外,数据集提供了多种格式的文件,便于在不同音乐软件(如Finale、MuseScore)中查看和编辑。用户还可以利用提供的脚本(如Add_header.py、Rn2harm.py)对文件进行进一步处理和转换,以满足特定的研究需求。
背景与挑战
背景概述
《星球大战主题语料库》(Star Wars Thematic Corpus, SWTC)是由Frank Lehman于2022年创建的一个音乐数据集,专注于《星球大战》系列电影中的主题旋律与和声转录。该数据集涵盖了《星球大战》三部曲(I-IX)中的64个主题,每个主题以多种格式(如.sib、.musicxml、.krn)提供,并以humdrum格式为主要编码方式。该语料库的创建旨在为音乐信息检索(MIR)领域提供一种标准化的和弦符号表示方法,特别是针对流行、爵士和电影音乐中的非功能和声。其影响力不仅限于音乐分析领域,还为电影音乐研究提供了重要的数据支持。
当前挑战
SWTC数据集在构建过程中面临了多重挑战。首先,转录和编码过程中需要对复杂的和弦结构进行精确表示,尤其是在非功能和声的背景下,传统的罗马数字和声分析难以适用。其次,数据集在格式转换过程中,从Sibelius到humdrum格式的转换需要大量的手动校对和调整,以确保数据的准确性和一致性。此外,Harte编码系统的引入虽然为和弦表示提供了灵活性,但其文档中的模糊性也导致了编码过程中的不确定性,特别是在表示低音区间和默认音程时。这些挑战不仅影响了数据集的构建效率,也对后续的计算分析提出了更高的要求。
常用场景
经典使用场景
Star Wars Thematic Corpus (SWTC) 数据集在音乐信息检索(MIR)和音乐理论分析领域具有广泛的应用。该数据集包含了《星球大战》系列电影中64个主要主题的旋律与和声转录,涵盖了前传、正传和后传三部曲。研究者可以利用这些数据,深入分析电影音乐中的和声结构、旋律发展以及主题变奏,从而揭示电影音乐创作中的艺术手法与情感表达。
解决学术问题
SWTC数据集为音乐理论研究者提供了一个标准化的资源,解决了电影音乐分析和跨媒体音乐研究中的诸多挑战。通过其丰富的和声标注与旋律信息,研究者能够深入探讨电影音乐中的和声功能、调性变化以及主题变奏的规律。此外,该数据集还为音乐信息检索领域的算法开发提供了高质量的标注数据,推动了自动音乐分析与生成技术的发展。
实际应用
在实际应用中,SWTC数据集被广泛用于音乐教育、电影音乐创作以及音乐分析软件的开发。教育工作者可以利用该数据集向学生展示电影音乐中的和声与旋律结构,帮助学生理解音乐创作中的艺术手法。此外,电影作曲家可以从中汲取灵感,借鉴《星球大战》系列中的经典主题创作手法。音乐分析软件开发者则可以利用该数据集测试和优化其算法,提升软件的准确性与实用性。
数据集最近研究
最新研究方向
近年来,Star Wars Thematic Corpus (SWTC) 数据集在音乐信息检索(MIR)领域引起了广泛关注。该数据集包含了《星球大战》系列电影中64个主要主题的旋律与和声转录,涵盖了前传、正传和后传三部曲。其独特的Harte编码格式为非功能和声的音乐作品提供了更为精确的表示方法,尤其适用于流行音乐、爵士乐和电影音乐的分析。当前的研究方向主要集中在利用该数据集进行自动化音乐分析、和声模式识别以及跨媒体音乐情感分析。此外,SWTC还为音乐生成模型提供了丰富的训练数据,推动了基于深度学习的音乐创作技术的发展。该数据集的发布不仅为音乐理论研究者提供了宝贵的资源,也为音乐信息检索领域的算法优化和模型训练提供了新的可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

PROSLU

PROSLU数据集是由哈尔滨工业大学社会计算与信息检索研究中心和华为技术有限公司共同创建的,包含超过5000条中文语句,每条语句都配有详细的个人资料信息,如知识图谱、用户资料和上下文感知信息。数据集通过人工标注确保高质量,旨在解决在语义模糊的实际场景中,传统基于文本的口语理解模型可能无法准确识别意图和槽位的问题。该数据集的应用领域主要集中在提高对话系统在复杂环境下的理解和响应能力,特别是在用户意图不明确或语句具有多重含义的情况下。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录