five

WASABI Song Corpus|音乐分析数据集|歌词分析数据集

收藏
github2024-05-16 更新2024-05-31 收录
音乐分析
歌词分析
下载链接:
https://github.com/micbuffa/WasabiDataset
下载链接
链接失效反馈
资源简介:
WASABI Song Corpus是一个包含173万首歌曲的大型语料库,这些歌曲通过从网络上的音乐数据库提取的元数据进行丰富,并经过歌词和音频分析处理。该数据集专注于从歌词中提取相关信息,如结构分割、主题、歌词内容的明确性、歌曲的突出段落以及传达的情感。

The WASABI Song Corpus is a large-scale dataset comprising 1.73 million songs, enriched with metadata extracted from online music databases and processed through lyric and audio analysis. This dataset focuses on extracting relevant information from lyrics, such as structural segmentation, themes, explicitness of lyric content, prominent sections of songs, and conveyed emotions.
创建时间:
2019-11-27
原始信息汇总

WASABI Song Corpus 概述

数据集描述

  • 名称: WASABI Song Corpus
  • 内容: 包含1.73M首带有歌词的歌曲(其中1.41M为唯一歌词),这些歌曲通过多种方法进行了不同层次的标注,包括结构分割、主题、歌词内容的明确性、歌曲的突出段落以及传达的情感等。
  • 应用: 该数据集可被音乐搜索引擎和音乐专业人士用于智能浏览、分类和歌曲分割推荐。

数据集组成

  • 歌曲、艺术家和专辑:
    • 2.1M首歌曲
    • 77k艺术家
    • 208k专辑
  • 自然语言处理标注:
    • 1.73M歌词的自相似矩阵(行和段落级别)
    • 50k歌词摘要
    • 1.73M歌词的主题预测(包括主题模型)
  • 附加标注:
    • LastFM社交标签
    • LastFM情感标签
  • NLP模型:
    • 基于438k歌词的明确歌词分类器
    • 基于1.05M歌词的LDA主题模型

数据集探索

数据集使用

  • 下载: 数据集可通过提供的链接下载,但某些版权数据(如完整歌词或完整音轨文件)仅对Wasabi项目成员开放。

数据集更新计划

  • 计划在未来三年内(自2021年开始)完成数据集的补充,并已编写使用MusixMatch进行歌词分析的脚本。

引用信息

  • 使用该资源时,应引用以下文章:
    • Buffa, Michel et al. "The WASABI Dataset: Cultural, Lyrics and Audio Analysis Metadata About 2 Million Popular Commercially Released Songs".
    • Fell, Michael et al. "Love Me, Love Me, Say (and Write!) that You Love Me: Enriching the WASABI Song Corpus with Lyrics Annotations".
AI搜集汇总
数据集介绍
main_image_url
构建方式
WASABI Song Corpus的构建方式主要基于从网络音乐数据库中提取的元数据,并结合歌词处理和音频分析的结果。具体而言,该数据集通过自然语言处理技术对歌词进行深入分析,提取了歌词的结构分段、主题、内容显性度、显著段落以及情感表达等多维度信息。此外,数据集还整合了来自LastFM的社会标签和情感标签,进一步丰富了歌曲的语义信息。通过这些方法,数据集为每首歌曲提供了多层次的标注,从而支持音乐搜索引擎和专业人士对大规模歌词集合的智能浏览、分类和分段推荐。
使用方法
WASABI Song Corpus的使用方法多样,既可以通过提供的CSV文件直接访问歌曲、艺术家和专辑信息,也可以利用自然语言处理标注和模型进行深入分析。数据集的交互式探索工具WASABI Interactive Navigator允许用户以图形化方式浏览数据。此外,数据集还提供了Jupyter Notebook示例,展示了如何使用不同的资源进行数据分析。对于研究人员,数据集的RDF知识图谱和SPARQL端点提供了更高级的查询和分析功能,支持对歌曲、艺术家和专辑的元数据进行复杂查询和关联分析。
背景与挑战
背景概述
WASABI Song Corpus是由Michel Buffa等人于2021年创建的一个大规模音乐数据集,专注于通过网络音乐数据库提取的元数据以及歌词和音频分析的结果来丰富歌曲信息。该数据集的核心研究问题是如何从歌词中提取有意义的信息,如结构分割、主题、内容的显性程度、显著段落以及情感表达。WASABI Song Corpus包含173万首带有歌词的歌曲,并通过多种方法进行注释,旨在为音乐搜索引擎和音乐专业人士提供智能浏览、分类和歌曲分割推荐的支持。
当前挑战
WASABI Song Corpus在构建过程中面临多项挑战。首先,从歌词中提取结构和情感信息需要复杂的自然语言处理技术,尤其是处理多语言歌词的多样性。其次,由于歌词和音频数据涉及版权问题,数据集的构建和分发受到限制,研究人员需要从其他来源获取歌词数据。此外,数据集的扩展和更新也是一个持续的挑战,尤其是在LyricsWikia服务关闭后,如何获取和分析新的歌词数据成为关键问题。最后,如何有效地整合和利用这些多层次的注释信息,以支持音乐搜索和推荐系统,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
WASABI Song Corpus 数据集的经典使用场景主要集中在音乐内容的智能化处理与分析。通过该数据集,研究者和开发者可以利用其丰富的歌词和音频分析结果,进行歌曲的结构分割、主题识别、情感分析以及显式内容的检测。这些功能使得音乐搜索引擎能够提供更精准的歌曲推荐,同时为音乐专业人士如记者和电台主持人提供智能化的歌曲分类和浏览工具。
解决学术问题
WASABI Song Corpus 数据集解决了音乐领域中多个重要的学术研究问题。首先,它通过自然语言处理技术,提供了对歌词内容的深入分析,包括结构分割、主题识别和情感分析,这为音乐语义学的研究提供了宝贵的数据支持。其次,数据集中的显式内容检测模型有助于研究音乐内容的分级和过滤问题,这在内容监管和用户体验优化方面具有重要意义。
实际应用
在实际应用中,WASABI Song Corpus 数据集被广泛应用于音乐搜索引擎和内容推荐系统。例如,通过分析歌词的主题和情感,系统可以为用户推荐符合其情感状态或主题偏好的歌曲。此外,数据集的结构分割和显式内容检测功能也被用于音乐内容的自动分类和过滤,帮助音乐平台更好地管理其内容库,提升用户体验。
数据集最近研究
最新研究方向
WASABI Song Corpus的最新研究方向主要集中在音乐语义分析和情感计算领域。该数据集通过丰富的歌词和音频分析,提供了对歌曲结构、主题、情感和显式内容的深度标注,为音乐搜索引擎和专业人士提供了智能化的歌曲分类和推荐工具。前沿研究利用这些标注进行情感识别、主题建模和歌词显式性分类,进一步推动了音乐信息检索和情感计算的发展。此外,数据集的RDF知识图谱表示为跨领域的音乐数据分析提供了新的可能性,特别是在结合社会标签和情感标签的多维度分析中,展现了其在音乐文化研究和个性化推荐系统中的重要应用价值。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录