five

spotify-top-200-dataset|音乐数据分析数据集|流行音乐数据集

收藏
github2022-11-25 更新2024-05-31 收录
音乐数据分析
流行音乐
下载链接:
https://github.com/younver/spotify-top-200-dataset
下载链接
链接失效反馈
资源简介:
该数据集包含了2017年至2021年间Spotify每周全球排名前200的歌曲数据,共有74,661行,40个列,涵盖了歌曲、专辑和艺术家的详细信息,如歌曲和专辑的ID、名称、流行度、艺术家信息等。

This dataset encompasses the weekly global top 200 songs on Spotify from 2017 to 2021, comprising a total of 74,661 rows and 40 columns. It includes detailed information about the songs, albums, and artists, such as the IDs and names of the songs and albums, popularity metrics, and artist details.
创建时间:
2022-10-24
原始信息汇总

spotify-top-200-dataset

Spotify Charts weekly top 200 songs between 2017~2021 in global dataset & api extraction codes

数据集概述

  • 时间范围:2017-2021年
  • 数据量:74,661行
  • 列数:40列
  • 总项数:2,986,440项
  • 数据类型:10种(char, tinyint, varchar, bool, date, smallint, decimal, blob, float, int)

列信息

  • track_id (char[22]):歌曲的Spotify ID
  • track_name (varchar[666]):歌曲名称
  • track_popularity (double[3, 2]):歌曲的流行度,由Spotify计算
  • track_number (u-tinyint):歌曲在其专辑中的索引
  • album_id (char[22]):专辑的Spotify ID
  • album_name (varchar[666]):专辑名称
  • album_img (blob):专辑封面图片链接
  • album_type (varchar[10]):专辑类型(如:单曲、专辑)
  • album_label (varchar[666]):专辑的唱片公司
  • album_track_number (u-tinyint):专辑中的歌曲数量
  • album_popularity (double[3,2]):专辑的流行度,由Spotify计算
  • artist_num (u-tinyint):参与歌曲的艺术家数量
  • artist_names (varchar[666]):参与歌曲的所有艺术家名称(以逗号分隔)
  • artist_id (char[22]):艺术家的Spotify ID
  • artist_name (varchar[666]):参与歌曲的艺术家之一
  • artist_img (char[40]):艺术家的图片链接
  • artist_followers (u-int):艺术家的追随者数量
  • artist_popularity (decimal[3,2]):艺术家的流行度,由Spotify计算
  • artist_genres (varchar[666]):艺术家的音乐类型
  • rank (u-tinyint):歌曲在榜单上的排名
  • week (date):歌曲上榜的周结束日期
  • streams (u-int):该周的播放次数
  • collab (bool):歌曲是否为合作作品(0为单人,1为多人)
  • explicit (bool):歌曲是否包含明确内容
  • release_date (date):专辑(及歌曲)的发行日期
  • 音乐特征:danceability, energy, key, mode, time_signature, loudness, speechiness, acousticness, instrumentalness, liveness, valence, tempo, duration(参考Spotify API文档)
  • pivot (bool):当多个艺术家被分割成单独行时,此值为第一个艺术家设为0,其余为1
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合Spotify API,系统地提取了2017年至2021年间全球每周排名前200的歌曲信息。数据集的构建过程涉及对Spotify Charts的定期抓取,确保了数据的时效性和完整性。通过API接口,数据集不仅涵盖了歌曲的基本信息,还包括了音频特征、艺术家详情以及专辑相关数据,从而为音乐分析提供了丰富的多维度数据支持。
特点
此数据集的显著特点在于其全面性和细致性。它不仅包含了歌曲的流行度、流媒体播放量等基础指标,还深入到音频特征如舞蹈性、能量、节奏等,以及艺术家的详细信息如粉丝数量、流行度等。此外,数据集还特别处理了多艺术家合作的情况,通过分离记录确保了数据的准确性和可分析性。
使用方法
该数据集适用于多种音乐分析场景,包括但不限于流行趋势预测、音乐特征分析、艺术家影响力评估等。用户可以通过数据集中的详细字段,如歌曲的音频特征和艺术家的流行度,进行深入的数据挖掘和模型构建。此外,数据集的API提取代码也为用户提供了自定义数据抓取和更新的可能性,增强了数据集的灵活性和实用性。
背景与挑战
背景概述
在音乐流媒体领域,Spotify作为全球领先的平台,其数据具有极高的研究价值。spotify-top-200-dataset汇集了2017年至2021年间全球每周Spotify排行榜前200首歌曲的数据,涵盖了74,661行和40列,总计2,986,440个数据项。该数据集由主要研究人员或机构通过Spotify API提取,旨在探索音乐流行趋势、艺术家影响力及音乐特征分析等核心研究问题。其丰富的数据类型和详细的音乐属性,如舞蹈性、能量、节奏等,为音乐分析、市场研究和用户行为预测提供了宝贵的资源,对音乐产业及相关研究领域产生了深远影响。
当前挑战
尽管spotify-top-200-dataset提供了丰富的音乐数据,但其构建和应用过程中仍面临若干挑战。首先,数据提取依赖于Spotify API,API的更新和限制可能影响数据的完整性和及时性。其次,数据集包含多种数据类型和复杂的音乐属性,如何高效地处理和分析这些数据,确保结果的准确性和可靠性,是一个技术难题。此外,数据集中的多艺术家合作记录和音乐特征的多样性,增加了数据处理的复杂度。最后,如何从庞大的数据中提取有意义的模式和趋势,以支持音乐产业决策和研究,是该数据集应用中的另一大挑战。
常用场景
经典使用场景
在音乐分析领域,Spotify Top 200数据集的经典使用场景主要集中在流行音乐趋势的探索与预测。研究者通过分析每周全球前200首歌曲的排名、流媒体数量、艺术家信息及其音乐特征,能够揭示音乐市场的动态变化。例如,通过时间序列分析,可以预测特定音乐风格或艺术家的流行趋势,为音乐产业提供决策支持。
实际应用
在实际应用中,Spotify Top 200数据集被广泛用于音乐推荐系统的优化。通过分析用户偏好与流行音乐特征的匹配度,推荐系统可以更精准地为用户提供个性化的音乐推荐。此外,音乐制作人和市场营销人员利用该数据集进行市场调研,了解当前音乐趋势,从而制定更有效的音乐发布和推广策略。
衍生相关工作
基于Spotify Top 200数据集,衍生了一系列经典工作,包括音乐流行度预测模型、音乐特征分析工具以及跨文化音乐比较研究。例如,有研究利用该数据集开发了基于机器学习的音乐流行度预测模型,显著提高了预测精度。此外,数据集还被用于构建音乐特征数据库,支持音乐信息检索和音乐情感分析等领域的研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

ZuantuSet

ZuantuSet是一个包含超过71,000个中国历史视觉化和108,000个插图的数据集。该数据集由北京大学的一般人工智能国家重点实验室和智能科学技术学院通过半自动化的管道收集和提取历史书籍中的视觉化内容而构建。数据集涵盖了从公元前550年到1950年的中国历史视觉化作品。该数据集不仅揭示了历史中国视觉化的独特设计模式,还分析了其背后的历史和文化成因,为数字人文领域的研究提供了丰富的资源。

arXiv 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

World Bank - World Governance Indicators

世界银行的世界治理指标(World Governance Indicators, WGI)数据集提供了全球各国在六个治理维度上的评估数据,包括言论和问责、政治稳定和无暴力、政府效率、监管质量、法治以及腐败控制。这些指标基于多个来源的数据,旨在帮助政策制定者和研究人员了解和改善治理质量。

databank.worldbank.org 收录