Cantopop-corpus
收藏github2023-05-18 更新2024-05-31 收录
下载链接:
https://github.com/jasonleeubc/Cantopop-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2000至2020年间105首粤语流行音乐的转录文件,用于研究该音乐类型中的音调与旋律对应关系。
This dataset comprises transcription files of 105 Cantonese pop songs from the period between 2000 and 2020, utilized for investigating the correspondence between tones and melodies in this genre of music.
创建时间:
2023-05-13
原始信息汇总
A Corpus of Cantonese Popular Music, 2000–2020
数据集概述
- 类型:Cantonese popular music ("Cantopop")
- 时间范围:2000–2020
- 文件数量:105首歌曲的.krn文件
- 文件内容:每首歌曲的转录文本
- 文件命名:基于歌曲ID
- 转录格式:Humdrum **kern格式,包含旋律、文本和语音信息三个部分
数据集详情
- 歌曲列表:完整歌曲列表可在此处查看:Cantopop corpus list_final.csv
- 研究背景:数据集用于研究Cantopop中的音调-旋律对应关系,详细研究信息可在此处了解:研究详情
搜集汇总
数据集介绍

构建方式
Cantopop-corpus数据集的构建始于对2000年至2020年间105首粤语流行音乐(Cantopop)的精选与转录。这些歌曲最初被选入并进行转录,旨在进行一项关于该音乐类型中音调与旋律对应关系的研究。每首歌曲的转录文件以.krn格式存储,并按照歌曲ID命名,确保了数据的系统性和可追溯性。转录过程中,采用了Humdrum的kern格式,该格式包含三个主要部分,分别记录了旋律、歌词和语音信息,从而为研究者提供了多维度的分析视角。
特点
Cantopop-corpus数据集的特点在于其专注于粤语流行音乐这一特定领域,涵盖了2000年至2020年间的105首代表性作品。数据集以.krn格式存储,每首歌曲的转录文件包含旋律、歌词和语音信息,这种多维度的数据呈现方式为研究者提供了丰富的分析素材。此外,数据集还附有完整的歌曲列表,便于用户快速定位和检索所需内容。这种结构化的数据组织方式,不仅提升了数据的使用效率,也为深入研究粤语流行音乐的音调与旋律关系提供了坚实的基础。
使用方法
使用Cantopop-corpus数据集时,用户可以通过访问GitHub仓库获取所有.krn格式的转录文件。每首歌曲的转录文件以歌曲ID命名,用户可根据需要下载特定歌曲的转录数据。数据集附带的歌曲列表文件(Cantopop corpus list_final.csv)提供了所有歌曲的详细信息,便于用户快速查找和筛选。转录文件中的旋律、歌词和语音信息分别存储在不同的spine中,用户可根据研究需求提取相应的数据进行分析。此外,数据集还提供了相关研究的链接,用户可进一步了解数据集的构建背景和研究目的。
背景与挑战
背景概述
Cantopop-corpus数据集聚焦于2000年至2020年间粤语流行音乐(Cantopop)的旋律与声调对应关系研究。该数据集由不列颠哥伦比亚大学的研究团队创建,收录了105首粤语流行歌曲的转录文件,采用Humdrum的**kern格式存储,包含旋律、文本和语音信息。这一数据集的构建旨在为音乐学、语言学及计算音乐分析领域提供高质量的研究素材,尤其对粤语声调与旋律关系的探索具有重要意义。其研究成果不仅深化了对粤语流行音乐的理解,也为跨学科研究提供了新的视角。
当前挑战
Cantopop-corpus数据集在构建过程中面临多重挑战。首先,粤语声调系统复杂,如何准确捕捉声调与旋律的对应关系是核心难题。其次,音乐转录需要高度精确,尤其是将旋律、文本和语音信息整合到Humdrum格式中,这对技术实现提出了较高要求。此外,数据集的代表性也需考量,如何在有限的样本中涵盖多样化的音乐风格和年代特征,是确保研究结果普适性的关键。这些挑战不仅反映了数据构建的技术复杂性,也凸显了跨学科研究的独特难度。
常用场景
经典使用场景
Cantopop-corpus数据集在音乐学和语言学研究中具有重要价值,尤其在探讨粤语流行音乐(Cantopop)中音调与旋律对应关系的研究中。研究者通过分析该数据集中的.krn文件,能够深入理解粤语声调如何与旋律相结合,进而揭示音乐创作中的语言特征。
衍生相关工作
基于Cantopop-corpus数据集,已有多项经典研究得以开展。例如,研究者利用该数据集分析了粤语流行音乐中的声调变化模式,并提出了新的音乐创作理论。此外,该数据集还促进了音乐信息检索算法的优化,为后续的跨语言音乐研究提供了重要参考。
数据集最近研究
最新研究方向
近年来,Cantopop-corpus数据集在音乐信息检索和计算音乐学领域引起了广泛关注。该数据集包含了2000年至2020年间105首粤语流行音乐的.krn格式转录文件,涵盖了旋律、文本和语音信息。研究者们利用这一数据集,深入探讨了粤语流行音乐中的音调与旋律对应关系,这一研究方向不仅揭示了语言与音乐之间的复杂互动,还为跨文化音乐分析提供了新的视角。此外,随着人工智能技术在音乐生成和分析中的应用日益增多,Cantopop-corpus数据集为开发基于粤语流行音乐的自动作曲和音乐推荐系统提供了宝贵的数据支持,推动了音乐科技的前沿发展。
以上内容由遇见数据集搜集并总结生成



