WASABI Song Corpus

github2024-05-16 更新2024-05-31 收录

下载链接：

https://github.com/micbuffa/WasabiDataset

下载链接

链接失效反馈

官方服务：

资源简介：

WASABI Song Corpus是一个包含173万首歌曲的大型语料库，这些歌曲通过从网络上的音乐数据库提取的元数据进行丰富，并经过歌词和音频分析处理。该数据集专注于从歌词中提取相关信息，如结构分割、主题、歌词内容的明确性、歌曲的突出段落以及传达的情感。

The WASABI Song Corpus is a large-scale dataset comprising 1.73 million songs, enriched with metadata extracted from online music databases and processed through lyric and audio analysis. This dataset focuses on extracting relevant information from lyrics, such as structural segmentation, themes, explicitness of lyric content, prominent sections of songs, and conveyed emotions.

创建时间：

2019-11-27

原始信息汇总

WASABI Song Corpus 概述

数据集描述

名称: WASABI Song Corpus
内容: 包含1.73M首带有歌词的歌曲（其中1.41M为唯一歌词），这些歌曲通过多种方法进行了不同层次的标注，包括结构分割、主题、歌词内容的明确性、歌曲的突出段落以及传达的情感等。
应用: 该数据集可被音乐搜索引擎和音乐专业人士用于智能浏览、分类和歌曲分割推荐。

数据集组成

歌曲、艺术家和专辑:
- 2.1M首歌曲
- 77k艺术家
- 208k专辑
自然语言处理标注:
- 1.73M歌词的自相似矩阵（行和段落级别）
- 50k歌词摘要
- 1.73M歌词的主题预测（包括主题模型）
附加标注:
- LastFM社交标签
- LastFM情感标签
NLP模型:
- 基于438k歌词的明确歌词分类器
- 基于1.05M歌词的LDA主题模型

数据集探索

交互式探索: 可通过WASABI Interactive Navigator进行数据集的探索。

数据集使用

下载: 数据集可通过提供的链接下载，但某些版权数据（如完整歌词或完整音轨文件）仅对Wasabi项目成员开放。

数据集更新计划

计划在未来三年内（自2021年开始）完成数据集的补充，并已编写使用MusixMatch进行歌词分析的脚本。

引用信息

使用该资源时，应引用以下文章：
- Buffa, Michel et al. "The WASABI Dataset: Cultural, Lyrics and Audio Analysis Metadata About 2 Million Popular Commercially Released Songs".
- Fell, Michael et al. "Love Me, Love Me, Say (and Write!) that You Love Me: Enriching the WASABI Song Corpus with Lyrics Annotations".

搜集汇总

数据集介绍

构建方式

WASABI Song Corpus的构建方式主要基于从网络音乐数据库中提取的元数据，并结合歌词处理和音频分析的结果。具体而言，该数据集通过自然语言处理技术对歌词进行深入分析，提取了歌词的结构分段、主题、内容显性度、显著段落以及情感表达等多维度信息。此外，数据集还整合了来自LastFM的社会标签和情感标签，进一步丰富了歌曲的语义信息。通过这些方法，数据集为每首歌曲提供了多层次的标注，从而支持音乐搜索引擎和专业人士对大规模歌词集合的智能浏览、分类和分段推荐。

使用方法

WASABI Song Corpus的使用方法多样，既可以通过提供的CSV文件直接访问歌曲、艺术家和专辑信息，也可以利用自然语言处理标注和模型进行深入分析。数据集的交互式探索工具WASABI Interactive Navigator允许用户以图形化方式浏览数据。此外，数据集还提供了Jupyter Notebook示例，展示了如何使用不同的资源进行数据分析。对于研究人员，数据集的RDF知识图谱和SPARQL端点提供了更高级的查询和分析功能，支持对歌曲、艺术家和专辑的元数据进行复杂查询和关联分析。

背景与挑战

背景概述

WASABI Song Corpus是由Michel Buffa等人于2021年创建的一个大规模音乐数据集，专注于通过网络音乐数据库提取的元数据以及歌词和音频分析的结果来丰富歌曲信息。该数据集的核心研究问题是如何从歌词中提取有意义的信息，如结构分割、主题、内容的显性程度、显著段落以及情感表达。WASABI Song Corpus包含173万首带有歌词的歌曲，并通过多种方法进行注释，旨在为音乐搜索引擎和音乐专业人士提供智能浏览、分类和歌曲分割推荐的支持。

当前挑战

WASABI Song Corpus在构建过程中面临多项挑战。首先，从歌词中提取结构和情感信息需要复杂的自然语言处理技术，尤其是处理多语言歌词的多样性。其次，由于歌词和音频数据涉及版权问题，数据集的构建和分发受到限制，研究人员需要从其他来源获取歌词数据。此外，数据集的扩展和更新也是一个持续的挑战，尤其是在LyricsWikia服务关闭后，如何获取和分析新的歌词数据成为关键问题。最后，如何有效地整合和利用这些多层次的注释信息，以支持音乐搜索和推荐系统，也是该数据集面临的一个重要挑战。

常用场景

经典使用场景

WASABI Song Corpus 数据集的经典使用场景主要集中在音乐内容的智能化处理与分析。通过该数据集，研究者和开发者可以利用其丰富的歌词和音频分析结果，进行歌曲的结构分割、主题识别、情感分析以及显式内容的检测。这些功能使得音乐搜索引擎能够提供更精准的歌曲推荐，同时为音乐专业人士如记者和电台主持人提供智能化的歌曲分类和浏览工具。

解决学术问题

WASABI Song Corpus 数据集解决了音乐领域中多个重要的学术研究问题。首先，它通过自然语言处理技术，提供了对歌词内容的深入分析，包括结构分割、主题识别和情感分析，这为音乐语义学的研究提供了宝贵的数据支持。其次，数据集中的显式内容检测模型有助于研究音乐内容的分级和过滤问题，这在内容监管和用户体验优化方面具有重要意义。

实际应用

在实际应用中，WASABI Song Corpus 数据集被广泛应用于音乐搜索引擎和内容推荐系统。例如，通过分析歌词的主题和情感，系统可以为用户推荐符合其情感状态或主题偏好的歌曲。此外，数据集的结构分割和显式内容检测功能也被用于音乐内容的自动分类和过滤，帮助音乐平台更好地管理其内容库，提升用户体验。

数据集最近研究