ORD-CC32
收藏arXiv2025-06-17 更新2025-06-22 收录
下载链接:
https://zenodo.org/records/15682346
下载链接
链接失效反馈官方服务:
资源简介:
ORD-CC32数据集是一个开放的研究数据集,旨在支持阿拉伯音乐的计算(民族)音乐学研究。该数据集包括来自1932年开罗阿拉伯音乐大会的历史录音的元数据、旋律和节奏模式标签、音高注释以及音高/旋律特征。这些录音来源于阿拉伯地区的广泛范围,并以18张CD盒装形式发布(由Luc Verrier进行声音修复),并附有法文、英文和阿拉伯文的三语小册子(Lambert & Cordéreix,编辑,2015年)。该小册子提供了关于大会、音乐家、录音条件以及各种音乐特征(如旋律和节奏模式)的详细信息,这些信息为我们的数据集中的元数据提供了基础。尽管这个收藏在历史和文化上具有重要意义,但令人惊讶的是,专门用于它的机器可读资源和计算研究却很少。我们的工作通过共享一个由录音的元数据和特征计算而成的数据集来填补这一空白。在接下来的部分中,我们首先讨论了大会的意义和这个研究数据集的作用。
The ORD-CC32 dataset is an open research dataset developed to support computational (ethno)musicological studies of Arabic music. It encompasses metadata, melodic and rhythmic mode labels, pitch annotations, and pitch/melodic features extracted from historical recordings of the 1932 Cairo Congress of Arab Music. These recordings span a wide geographic scope across the Arab region, and were distributed as an 18-CD box set with audio restoration conducted by Luc Verrier, paired with a trilingual booklet (edited by Lambert & Cordéreix, 2015) in French, English, and Arabic. The booklet offers detailed insights into the congress, participating musicians, recording environments, and diverse musical traits including melodic and rhythmic modes, which serve as the foundational source for the metadata in this dataset. Despite the notable historical and cultural value of this collection, there are surprisingly limited machine-readable resources and computational research specifically focused on it. Our work addresses this gap by releasing a dataset constructed from the recordings' metadata and computationally derived features. In the subsequent sections, we first elaborate on the significance of the 1932 Cairo Congress and the role of this research dataset.
提供机构:
扎耶德大学跨学科研究学院
创建时间:
2025-06-17
原始信息汇总
Open Research Dataset of the 1932 Cairo Congress of Arab Music (ORD-CC32)
基本信息
- 发布日期: 2025年6月17日
- 版本: v1
- 访问权限: Open
- DOI: 10.5281/zenodo.15682346
- 许可证: Creative Commons Attribution Non Commercial 4.0 International
创建者与贡献者
- 数据管理者: Bozkurt, Baris (Zayed University)
- 注释者: De Souza, Arthur Diniz (Zayed University)
数据集描述
该数据集提供了1932年开罗阿拉伯音乐大会历史录音的丰富资源,包括:
- 元数据、声学特征和可视化数据
- 旋律模式(maqam)标签、节奏模式(iqa)标签、音乐形式标签和音调注释
- 音高相关音频特征(使用pYIN、CREPE、predominant melody-makam等算法提取)
- 音高直方图(常规、八度扭曲和音调对齐)、音程分析
- MusicBrainz API检索的详细元数据
数据内容
- Pickle文件: 包含元数据和计算的音频特征
- CSV文件: 包括区域-maqam配对、曲目信息和标签的元数据表
- 绘图文件: 音高分布的直方图和可视化(JPEG格式)
- 代码目录: 用于特征提取、对齐和数据集准备的Python脚本
音频访问说明
- 原始音频文件因版权限制未包含,但可通过以下链接访问:
- 主要元数据资源在MusicBrainz上可用:
资助与致谢
- 资助机构: 阿联酋扎耶德大学研究办公室(项目编号:23035)
- 参考出版物:
- Bozkurt, B. (2025). An Open Research Dataset of the 1932 Cairo Congress of Arab Music. arXiv.
- Lambert, J, Cordereix, P. (Ed.). (2015). Congrès de musique arabe du Caire, 1932. Bibliothèque nationale de France / Abu Dhabi Tourism & Culture Authority.
文件信息
- 文件名: CairoCong1932_features_plots_2025-06-17.zip
- 大小: 355.7 MB
- MD5校验码: 9f8b9cdadf88ddb93d50a90d4ddc544e
技术元数据
- 创建日期: 2025年6月17日
- 修改日期: 2025年6月17日
统计信息
- 总浏览量: 14
- 总下载量: 5
- 总数据量: 1.8 GB
索引情况
- 索引于: OpenAIRE
搜集汇总
数据集介绍

构建方式
ORD-CC32数据集的构建基于1932年开罗阿拉伯音乐大会的历史录音,这些录音经过声音修复并发布为一个18-CD的盒装集。数据集包含了从这些录音中提取的元数据、旋律和节奏模式标签、主音注释以及音高/旋律特征。元数据主要来源于配套的三语手册(法语、英语和阿拉伯语),该手册详细记录了大会背景、音乐家信息、录音条件及各种音乐特征。尽管这些元数据的覆盖范围不完整,但许多录音的音乐模式标签为计算研究提供了重要基础。数据集还通过MusicBrainz ID提供了对录音的详细元数据访问,包括标题、长度、艺术家等信息。
特点
ORD-CC32数据集的特点在于其跨区域和历史的覆盖范围,包含了来自阿尔及利亚、埃及、伊拉克、摩洛哥、叙利亚、突尼斯和土耳其等地区的代表性录音。数据集提供了丰富的音乐特征,如音高序列、音高置信度、手动标记的主音片段时间位置以及音高直方图。此外,数据集还包含了旋律模式(maqam)、节奏模式(iqa'at)和音乐形式标签,为研究阿拉伯音乐的微音阶、节奏模式和音乐结构提供了重要资源。数据集的独特之处在于其文化特异性,能够支持对阿拉伯音乐传统中区域差异的深入研究。
使用方法
ORD-CC32数据集的使用方法多样,适用于计算音乐学、音乐信息检索(MIR)以及文化研究等领域。研究人员可以利用数据集中的音高直方图进行音高和音律的实证分析,比较不同地区和时期的音乐实践。数据集还支持自动模式识别、主音识别和音律分析等算法的开发和测试。此外,数据集中的元数据和标签可用于音乐形式分类、节奏分析和模态结构探索。数据集还提供了Python代码,方便研究人员提取音高特征和更新元数据。数据集的开源性质使其成为教育和文化传播的宝贵资源,可用于开发交互式音乐探索平台和教学工具。
背景与挑战
背景概述
ORD-CC32数据集由Zayed大学的Baris Bozkurt等人创建,旨在支持阿拉伯音乐的计算民族音乐学研究。该数据集基于1932年开罗阿拉伯音乐大会的历史录音,这一大会是阿拉伯音乐史上的里程碑事件,汇集了来自阿拉伯世界和欧洲的音乐家、学者和文化代表,旨在记录、保存和系统化阿拉伯音乐传统。数据集包含元数据、旋律和节奏模式标签、主音注释以及从这些录音中提取的音高/旋律特征,为研究阿拉伯音乐的调式、音高和区域差异提供了宝贵的资源。
当前挑战
ORD-CC32数据集面临的挑战主要包括两方面:一是领域问题的挑战,即如何通过计算分析揭示阿拉伯音乐中复杂的调式系统(maqamat)和微音程结构,这些特征在传统研究中依赖主观听觉分析;二是构建过程中的挑战,包括历史录音的音质修复、元数据的不完整性(如部分录音缺失模式标签),以及跨区域音乐传统的标注一致性。此外,数据集未包含原始音频(因版权限制),进一步增加了基于特征分析的复杂性。
常用场景
经典使用场景
ORD-CC32数据集作为1932年开罗阿拉伯音乐大会历史录音的数字化资源,其经典使用场景集中于计算民族音乐学领域。研究者通过该数据集提供的旋律模式标签、节奏标注及音高特征,能够系统分析阿拉伯音乐中独特的马卡姆(maqam)音阶体系和微音分音程结构。例如,利用音高直方图技术对埃及、伊拉克等不同地区的演奏录音进行对比,揭示区域性音律差异如何体现在实际演奏中,这为传统音乐理论的实证研究提供了数据支撑。
解决学术问题
该数据集有效解决了阿拉伯音乐研究中的三大核心问题:其一,通过机器可读的元数据与音高特征,弥补了历史录音缺乏量化分析的空白;其二,基于跨区域录音的对比分析,为长期存在的音律标准化争议(如24平均律与传统音阶的冲突)提供实证依据;其三,其标注体系(如主音分段标记)支持自动调式识别算法的开发,推动音乐信息检索技术在非西方音乐中的应用。这些突破使得研究者能够从计算角度重新审视1932年大会试图构建统一音乐理论的文化意义。
衍生相关工作
该数据集催生的经典研究包括:Bozkurt团队开发的音阶对齐算法(2008)被改进用于跨区域马卡姆对比;Kroher等人(2018)受其启发开展的弗拉门戈与阿拉伯-安达卢西亚音乐音律比较研究;Nuttall等人(2023)利用其旋律特征验证阿拉伯音乐中的'拼贴理论'。此外,数据集的结构化标注方案已成为后续阿拉伯音乐数据库(如Arab-Andalusian Lyrics Dataset)的范本,推动计算民族音乐学方法论体系的完善。
以上内容由遇见数据集搜集并总结生成



