WASABI Song Corpus

github2020-01-24 更新2024-05-31 收录

下载链接：

https://github.com/WASABI-ANR-project/WasabiDataset

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含当前版本的WASABI Song Corpus文件，以及我们基于此构建的模型和更新。该数据集是一个大型歌曲语料库，通过从网络上的音乐数据库提取元数据，以及对歌词和音频分析的处理得到。数据集专注于从歌词中提取相关信息，如结构分割、主题、歌词内容的明确性、歌曲中的突出段落和传达的情感。目前，该语料库包含173万首带有歌词的歌曲，歌词在不同层次上进行了标注。

This repository contains the current version of the WASABI Song Corpus files, along with the models and updates we have built based on it. The dataset is a large-scale song corpus, obtained by extracting metadata from online music databases and processing lyrics and audio analysis. The dataset focuses on extracting relevant information from lyrics, such as structural segmentation, themes, explicitness of lyric content, prominent sections in songs, and conveyed emotions. Currently, the corpus includes 1.73 million songs with lyrics, which have been annotated at various levels.

创建时间：

2020-01-22

原始信息汇总

WASABI Song Corpus 概述

数据集组成

歌曲信息：包含2.1M首歌曲、77k艺术家和208k专辑的CSV文件。
自然语言处理标注：
- 1.73M歌词的自相似矩阵（行级和段级）。
- 50k歌词摘要。
- 1.73M歌词的主题预测（包含主题模型）。
附加标注：
- LastFM社交标签。
- LastFM情感标签。

模型与工具

NLP模型：
- 基于438k歌词的显式歌词分类器。
- 基于1.05M歌词的LDA主题模型。

数据集特点

数据集包含1.73M首带有歌词的歌曲（1.41M独特歌词），通过上述方法进行不同级别的注释。
该数据集支持音乐搜索引擎和音乐专业人士（如记者、电台主持人）更好地处理大量歌词集合，实现智能浏览、分类和分段推荐。

数据集访问

可通过Wasabi Search engine进行交互式探索。

许可证

本工作根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License授权。

搜集汇总

数据集介绍

构建方式

WASABI Song Corpus的构建是通过集成网络音乐数据库中的元数据，并结合歌词处理与音频分析而形成的大型歌曲语料库。具体而言，该团队专注于从歌词中提取相关信息，包括歌曲结构划分、主题内容、歌词内容的直白度、歌曲显著段落以及传达的情感等。

使用方法

数据集的使用可通过Wasabi Search engine进行交互式探索。用户需注意，若非WASABI项目的成员，将无法访问受版权保护的数据，例如完整长度的歌词或完整的音轨音频文件。此外，提供的Jupyter Notebook展示了如何使用不同的资源，以及如何通过Python模块如lyricswikia下载歌词。

背景与挑战

背景概述

WASABI Song Corpus是一个集成了音乐数据库网络元数据的大型歌曲语料库，通过对歌曲歌词和音频分析的处理而构建。该语料库的创建始于对歌曲语义重要组成部分——歌词信息的深入挖掘，旨在提取歌词的结构划分、主题内容、内容的显式性、歌曲的显著段落及传达的情绪等关键信息。截至目前，该语料库已包含1.73M首带有歌词的歌曲（其中1.41M首歌词为独特），并在不同层面上对这些歌曲进行了标注。此语料库及其标注方法可供音乐搜索引擎和音乐专业人士（如记者、广播节目主持人）更高效地处理大量歌词集合，实现智能化的浏览、分类及歌曲段落推荐。

当前挑战

在构建WASABI Song Corpus的过程中，研究人员面临了诸多挑战。首先，如何准确提取歌词中的丰富信息，并构建有效的标注系统，是其中的技术挑战。其次，语料库的多样性和规模也带来了处理和存储上的挑战。此外，歌词版权的保护问题使得部分数据无法完全公开，这对数据的可用性和广泛性构成了挑战。在研究领域问题上，WASABI Song Corpus需解决如何通过歌词分析提高音乐搜索的准确性和效率，以及如何为音乐专业人士提供更深入的歌词内容洞见等挑战。

常用场景

经典使用场景

在音乐信息检索与音乐内容分析领域，WASABI Song Corpus数据集之经典使用场景在于其提供了丰富的歌词语义信息，使得研究人员能够探索歌曲的结构分割、主题、歌词内容的显式性、歌曲的突出段落以及传达的情感。该数据集支持音乐搜索引擎和音乐专业人士（如记者、电台主持人）对大量歌词集合进行智能浏览、分类和分节推荐。

解决学术问题

WASABI Song Corpus数据集解决了学术研究中如何有效处理和利用大规模歌词集合的问题，提供了结构化且标注详尽的歌词资源，有助于音乐风格分析、情感识别、歌手或专辑分类等研究的深入。其丰富的元数据和注释为音乐信息检索领域的算法设计与模型评估提供了坚实基础。

实际应用

实际应用中，WASABI Song Corpus数据集可被用于音乐推荐系统、情感分析工具的开发，以及音乐教育软件中。通过该数据集，开发者能够设计出更为智能的音乐播放列表，为用户提供更为个性化的听歌体验，同时也为音乐教育工作者提供了丰富的教学资源。

数据集最近研究