Pop20c Corpus

github2022-07-17 更新2024-05-31 收录

下载链接：

https://github.com/vanderstel/pop-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含20世纪每一年最流行的美国歌曲的数据集，涵盖1900至1999年，歌曲选择基于Billboard Hot 100榜单和其他媒体数据。

A dataset containing the most popular American songs for each year of the 20th century, spanning from 1900 to 1999. The song selections are based on the Billboard Hot 100 chart and other media data.

创建时间：

2019-07-16

原始信息汇总

Pop20c Corpus 概述

数据集描述

名称: Pop20c Corpus
内容: 包含1900年至1999年间每年最受欢迎的美国流行音乐歌曲，共计100首。
选择标准:
- 1900至1954年的歌曲根据Joel Whitburn的书籍《A Century of Pop Music》中的排行榜选出，该排行榜基于唱片销售、乐谱销售、电台播放和自动点唱机播放等数据。
- 1955至1999年的歌曲则从《Billboard Hot 100》排行榜中选出。

数据集开发

开发者: Joseph VanderStel 和 David Temperley
相关研究: 该数据集最初为研究“二十世纪美国流行音乐中的切分音演变”而开发，相关研究发表于《Journal of New Music Research》(2022)。

数据集格式

编码方式: 使用修改后的Rolling Stone Corpus格式，基于录音转录而非乐谱。
文件类型:
- 转录文件: 使用特定格式快速转录歌曲的音高和节奏。
- 歌词文件: 包含每首歌的歌词，经过多源校验。
- 音符列表文件: 由转录和歌词文件生成，用于机器读取，每行包含时间点、音符持续时间、MIDI音符编号、音阶度数、音节重音和音节内容。

注意事项

数据集中包含的一些早期歌曲的歌词可能含有对非洲裔美国人的负面和冒犯性内容，但为了保持选择标准的客观性和一致性，这些内容被保留。

搜集汇总

数据集介绍

构建方式

Pop20c Corpus的构建基于20世纪美国流行音乐的历史背景，精选了1900年至1999年间每年最受欢迎的一首歌曲，共计100首。1900年至1954年的歌曲选自Joel Whitburn的著作《A Century of Pop Music》，该著作的榜单综合了唱片销量、乐谱销售、电台播放及点唱机播放等多维度数据。1955年至1999年的歌曲则依据《Billboard Hot 100》榜单进行筛选。每首歌曲的旋律通过录音转录，并采用改进的《Rolling Stone Corpus》格式进行编码，确保了数据的准确性和可操作性。

使用方法

Pop20c Corpus的使用方法灵活多样，适用于音乐学、历史学及文化研究等多个领域。研究者可通过转录文件分析旋律的音阶和节奏变化，探索20世纪美国流行音乐的演变规律。歌词文件可用于语言学分析，研究歌词文本的语义和结构特征。音符列表文件则为机器学习模型提供了标准化的输入格式，支持自动化分析和模式识别。此外，数据集的时间跨度和历史背景使其成为研究美国社会文化变迁的重要资源。通过结合多种文件类型，研究者能够从多角度深入挖掘数据集的潜在价值。

背景与挑战

背景概述

Pop20c Corpus 是一个涵盖20世纪（1900年至1999年）美国流行音乐的精选数据集，由Joseph VanderStel和David Temperley共同开发。该数据集收录了每年最受欢迎的一首歌曲，共计100首，旨在为音乐研究者提供一个系统化的资源，以探索20世纪美国流行音乐的演变。数据集的创建基于Joel Whitburn的《A Century of Pop Music》和《Billboard Hot 100》榜单，涵盖了从唱片销量到广播播放等多维度的流行度指标。该数据集最初为研究20世纪美国流行音乐中的切分音演变而设计，但其广泛的应用潜力使其成为音乐学、文化研究及计算音乐学领域的重要资源。

当前挑战

Pop20c Corpus 在构建和应用中面临多重挑战。首先，数据的选择和标准化是一个复杂的过程，尤其是在早期（1900年至1954年）的音乐数据中，流行度指标的多样性和历史记录的缺失增加了数据采集的难度。其次，歌曲的编码和转录需要高度的音乐学专业知识，以确保旋律和歌词的准确性。此外，数据集中的部分歌曲包含种族歧视性歌词，这为数据的伦理使用带来了挑战。如何在保持历史真实性的同时，避免传播有害内容，是研究者需要谨慎处理的问题。最后，数据集的机器可读性要求对音符和歌词的精确映射，这对技术实现提出了较高的要求。

常用场景

经典使用场景

Pop20c Corpus 数据集为研究20世纪美国流行音乐的演变提供了宝贵的资源。通过分析1900年至1999年间每年最受欢迎的歌曲，研究者能够深入探讨音乐风格、旋律结构以及歌词内容的变化。这一数据集特别适合用于音乐学、文化研究以及历史学领域的定量分析，帮助学者揭示音乐与社会文化之间的复杂关系。

解决学术问题

Pop20c Corpus 解决了音乐研究中数据稀缺的问题，尤其是针对20世纪美国流行音乐的定量分析。通过提供详细的旋律编码和歌词信息，该数据集使得研究者能够系统性地分析音乐中的节奏、和声以及歌词主题的演变。这不仅有助于理解音乐风格的变迁，还为探讨音乐与社会、政治、文化背景的互动提供了数据支持。

实际应用

在实际应用中，Pop20c Corpus 可被用于音乐教育、音乐信息检索以及音乐创作领域。例如，音乐教师可以利用该数据集展示不同年代的音乐风格变化，帮助学生理解音乐史。此外，音乐信息检索系统可以通过分析旋律和歌词特征，提升歌曲分类和推荐的准确性。音乐创作者也可以从中汲取灵感，探索不同时代的音乐元素。

数据集最近研究