WASABI Song Corpus|音乐分析数据集|歌词分析数据集
收藏WASABI Song Corpus 概述
数据集描述
- 名称: WASABI Song Corpus
- 内容: 包含1.73M首带有歌词的歌曲(其中1.41M为唯一歌词),这些歌曲通过多种方法进行了不同层次的标注,包括结构分割、主题、歌词内容的明确性、歌曲的突出段落以及传达的情感等。
- 应用: 该数据集可被音乐搜索引擎和音乐专业人士用于智能浏览、分类和歌曲分割推荐。
数据集组成
- 歌曲、艺术家和专辑:
- 2.1M首歌曲
- 77k艺术家
- 208k专辑
- 自然语言处理标注:
- 1.73M歌词的自相似矩阵(行和段落级别)
- 50k歌词摘要
- 1.73M歌词的主题预测(包括主题模型)
- 附加标注:
- LastFM社交标签
- LastFM情感标签
- NLP模型:
- 基于438k歌词的明确歌词分类器
- 基于1.05M歌词的LDA主题模型
数据集探索
- 交互式探索: 可通过WASABI Interactive Navigator进行数据集的探索。
数据集使用
- 下载: 数据集可通过提供的链接下载,但某些版权数据(如完整歌词或完整音轨文件)仅对Wasabi项目成员开放。
数据集更新计划
- 计划在未来三年内(自2021年开始)完成数据集的补充,并已编写使用MusixMatch进行歌词分析的脚本。
引用信息
- 使用该资源时,应引用以下文章:
- Buffa, Michel et al. "The WASABI Dataset: Cultural, Lyrics and Audio Analysis Metadata About 2 Million Popular Commercially Released Songs".
- Fell, Michael et al. "Love Me, Love Me, Say (and Write!) that You Love Me: Enriching the WASABI Song Corpus with Lyrics Annotations".

VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录
A00_13081a.jpg
Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7
DataONE 收录