five

Deezer Music Genre Trajectories Dataset

收藏
arXiv2025-05-06 更新2025-05-08 收录
下载链接:
https://github.com/lilianmarey/music_pathlets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由Deezer提供,包含了2000位用户在17个月内的音乐收听历史,并按音乐类型进行了标注。数据集记录了用户在特定时间段内收听特定音乐类型的比例,旨在分析用户音乐偏好的长期演变。通过轨迹学习框架,该数据集有助于揭示音乐类型之间的交互模式,以及音乐类型随时间的变化。数据集的发布为推荐系统的研究提供了宝贵的资源,并有助于提高音乐推荐的透明度和解释性。

This dataset, provided by Deezer, encompasses the music listening history of 2000 users spanning a 17-month period, with annotations categorized by music genres. It records the proportion of time that users spent listening to specific music genres within designated time periods, aiming to analyze the long-term evolution of users' music preferences. Through a trajectory learning framework, this dataset helps reveal the interaction patterns between music genres and the temporal changes of music genres. The release of this dataset provides a valuable resource for recommender system research and helps improve the transparency and interpretability of music recommendation systems.
提供机构:
Deezer Research
创建时间:
2025-05-06
原始信息汇总

数据集概述

基本信息

  • 数据集名称:音乐流派轨迹建模数据集
  • 数据集来源:由一家领先的音乐流媒体公司提供
  • 数据集发布平台Zenodo
  • 数据集规模:包含2000名用户的音乐历史记录
  • 时间跨度:17个月
  • 标注信息:音乐流派标签

数据集内容

  • 数据类型:用户历史音乐播放记录
  • 数据特征
    • 用户音乐消费行为
    • 音乐流派标签
    • 时间序列数据

研究应用

  • 主要研究目的:分析用户音乐偏好的演变
  • 研究方法:基于字典学习的路径片段(pathlet)学习框架
  • 应用领域
    • 用户行为分析
    • 音乐推荐系统
    • 多样性推荐研究

技术依赖

  • 编程语言:Python
  • 依赖库
    • networkx==3.3
    • numpy==2.1.2
    • pandas==2.2.3
    • scikit-learn==1.5.2
    • torch==2.4.1
    • tqdm==4.66.5

数据文件结构

├── data │ └── DEEZER/histories.csv ├── processed_data/DEEZER/ └── results/DEEZER/

相关论文

  • 论文标题:Modeling Musical Genre Trajectories through Pathlet Learning
  • 会议:The 33rd ACM Conference on User Modeling, Adaptation and Personalization (UMAP 25)
  • 研讨会:Explainable User Models and Personalized Systems (ExUM) International Workshop
  • 会议时间:2025年6月16日-19日
  • 会议地点:美国纽约
搜集汇总
数据集介绍
main_image_url
构建方式
Deezer Music Genre Trajectories Dataset的构建基于Deezer音乐流媒体平台提供的用户历史数据,涵盖了2000名用户在17个月内对350种音乐流派的互动记录。数据收集过程中,用户的每一次音乐播放行为均被记录,包括播放的曲目、时间戳及对应的音乐流派。通过将时间划分为固定长度的窗口,计算每个用户在每段时间窗口内对各音乐流派的播放比例,构建了用户-流派分配张量。此外,通过分析用户在相邻时间窗口内的流派变化,定义了用户轨迹以捕捉音乐品味的演变模式。
特点
该数据集的核心特点在于其时间维度的细粒度记录,能够揭示用户音乐品味的动态变化。数据集不仅包含用户对音乐流派的偏好比例,还通过共现历史向量捕捉了流派间的互动关系。这种设计使得研究者能够深入分析用户从一种流派转向另一种流派的模式。此外,数据集的稀疏性处理和轨迹采样策略增强了其在实际应用中的可用性,为音乐推荐系统和社会学研究提供了丰富的信息。
使用方法
Deezer Music Genre Trajectories Dataset适用于多种研究场景,包括音乐推荐系统的开发和用户行为分析。研究者可以利用该数据集训练模型预测用户未来的音乐流派偏好,或分析音乐品味的长期演变趋势。具体使用时,可通过路径学习算法提取用户轨迹中的重复模式,构建流派转换的预测模型。此外,数据集还可用于社会学研究,探讨音乐消费与社会因素之间的关系。使用前需注意数据的稀疏性,并采用适当的预处理方法以提高模型性能。
背景与挑战
背景概述
Deezer Music Genre Trajectories Dataset由Deezer Research与Télécom Paris的研究团队于2025年发布,旨在通过路径学习(Pathlet Learning)方法解析用户音乐流派偏好的动态演变。该数据集包含2000名用户17个月内的流派标注听歌记录,填补了音乐流媒体平台中长期用户行为建模的空白。其核心创新在于将地理轨迹分析中的路径学习范式迁移至音乐消费领域,通过可解释的路径嵌入(pathlet embeddings)揭示流派间的交互模式,为推荐系统透明度与社会学研究提供了新工具。该研究发表于计算机信息检索顶刊,推动了可解释推荐系统与计算音乐学交叉领域的发展。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决音乐推荐系统中长期偏好演变的黑箱问题,传统协同过滤方法难以捕捉流派间的非线性时序关联;在构建层面,音乐消费数据的极端稀疏性(20%热门歌曲占据90%流量)导致轨迹重构困难,且流派语义的弱约束性(如金属与爵士的非常规组合)增加了路径学习的复杂度。此外,数据采集需平衡用户隐私与行为真实性,17个月的时间跨度也引入了外部事件干扰的噪声。
常用场景
经典使用场景
Deezer Music Genre Trajectories Dataset 在音乐推荐系统和音乐社会学研究中具有经典应用场景。该数据集通过捕捉用户在不同音乐流派间的长期偏好演变轨迹,为研究音乐消费行为的动态模式提供了丰富素材。在算法层面,研究者利用路径学习(Pathlet Learning)方法从用户历史数据中提取可解释的轨迹嵌入,揭示用户从一种音乐流派转向另一种流派的典型路径模式。这种基于字典学习的稀疏表示方法,能够有效识别用户听歌行为中的重复模式,为理解音乐品味演化提供了量化工具。
解决学术问题
该数据集解决了音乐信息检索领域的若干关键学术问题。首先,它突破了传统黑箱推荐模型的可解释性局限,通过显式的路径嵌入表示用户偏好演变,使推荐结果具有可解释性。其次,数据集中的时序流派分配张量解决了长期音乐偏好建模的挑战,能够捕捉用户品味的兴起与消退过程。此外,基于共同收听历史的轨迹构建方法,为研究不同音乐流派间的交互影响提供了新的分析维度,弥补了传统一阶转移模型的不足。这些突破对提高推荐系统透明度、理解文化消费模式具有重要意义。
衍生相关工作
该数据集衍生出多个经典研究方向。在推荐系统领域,启发了基于知识图谱的音乐流派转移预测模型,如Preference Transition Model的改进版本。在时序建模方面,促进了结合路径学习与循环神经网络的混合推荐框架发展。社会学研究利用该数据验证了布尔迪厄文化资本理论在数字音乐时代的适用性,产生了关于音乐消费与社会分层关系的新发现。算法公平性研究则基于此数据集开发了缓解流行度偏差的新方法,推动了多样性感知推荐系统的进步。这些衍生工作共同推进了音乐信息检索与社会计算领域的交叉发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作