five

Deezer Music Genre Trajectories Dataset|音乐推荐数据集|用户行为分析数据集

收藏
arXiv2025-05-06 更新2025-05-08 收录
音乐推荐
用户行为分析
下载链接:
https://github.com/lilianmarey/music_pathlets
下载链接
链接失效反馈
资源简介:
该数据集由Deezer提供,包含了2000位用户在17个月内的音乐收听历史,并按音乐类型进行了标注。数据集记录了用户在特定时间段内收听特定音乐类型的比例,旨在分析用户音乐偏好的长期演变。通过轨迹学习框架,该数据集有助于揭示音乐类型之间的交互模式,以及音乐类型随时间的变化。数据集的发布为推荐系统的研究提供了宝贵的资源,并有助于提高音乐推荐的透明度和解释性。
提供机构:
Deezer Research
创建时间:
2025-05-06
原始信息汇总

数据集概述

基本信息

  • 数据集名称:音乐流派轨迹建模数据集
  • 数据集来源:由一家领先的音乐流媒体公司提供
  • 数据集发布平台Zenodo
  • 数据集规模:包含2000名用户的音乐历史记录
  • 时间跨度:17个月
  • 标注信息:音乐流派标签

数据集内容

  • 数据类型:用户历史音乐播放记录
  • 数据特征
    • 用户音乐消费行为
    • 音乐流派标签
    • 时间序列数据

研究应用

  • 主要研究目的:分析用户音乐偏好的演变
  • 研究方法:基于字典学习的路径片段(pathlet)学习框架
  • 应用领域
    • 用户行为分析
    • 音乐推荐系统
    • 多样性推荐研究

技术依赖

  • 编程语言:Python
  • 依赖库
    • networkx==3.3
    • numpy==2.1.2
    • pandas==2.2.3
    • scikit-learn==1.5.2
    • torch==2.4.1
    • tqdm==4.66.5

数据文件结构

├── data │ └── DEEZER/histories.csv ├── processed_data/DEEZER/ └── results/DEEZER/

相关论文

  • 论文标题:Modeling Musical Genre Trajectories through Pathlet Learning
  • 会议:The 33rd ACM Conference on User Modeling, Adaptation and Personalization (UMAP 25)
  • 研讨会:Explainable User Models and Personalized Systems (ExUM) International Workshop
  • 会议时间:2025年6月16日-19日
  • 会议地点:美国纽约
AI搜集汇总
数据集介绍
main_image_url
构建方式
Deezer Music Genre Trajectories Dataset的构建基于Deezer音乐流媒体平台提供的用户历史数据,涵盖了2000名用户在17个月内对350种音乐流派的互动记录。数据收集过程中,用户的每一次音乐播放行为均被记录,包括播放的曲目、时间戳及对应的音乐流派。通过将时间划分为固定长度的窗口,计算每个用户在每段时间窗口内对各音乐流派的播放比例,构建了用户-流派分配张量。此外,通过分析用户在相邻时间窗口内的流派变化,定义了用户轨迹以捕捉音乐品味的演变模式。
特点
该数据集的核心特点在于其时间维度的细粒度记录,能够揭示用户音乐品味的动态变化。数据集不仅包含用户对音乐流派的偏好比例,还通过共现历史向量捕捉了流派间的互动关系。这种设计使得研究者能够深入分析用户从一种流派转向另一种流派的模式。此外,数据集的稀疏性处理和轨迹采样策略增强了其在实际应用中的可用性,为音乐推荐系统和社会学研究提供了丰富的信息。
使用方法
Deezer Music Genre Trajectories Dataset适用于多种研究场景,包括音乐推荐系统的开发和用户行为分析。研究者可以利用该数据集训练模型预测用户未来的音乐流派偏好,或分析音乐品味的长期演变趋势。具体使用时,可通过路径学习算法提取用户轨迹中的重复模式,构建流派转换的预测模型。此外,数据集还可用于社会学研究,探讨音乐消费与社会因素之间的关系。使用前需注意数据的稀疏性,并采用适当的预处理方法以提高模型性能。
背景与挑战
背景概述
Deezer Music Genre Trajectories Dataset由Deezer Research与Télécom Paris的研究团队于2025年发布,旨在通过路径学习(Pathlet Learning)方法解析用户音乐流派偏好的动态演变。该数据集包含2000名用户17个月内的流派标注听歌记录,填补了音乐流媒体平台中长期用户行为建模的空白。其核心创新在于将地理轨迹分析中的路径学习范式迁移至音乐消费领域,通过可解释的路径嵌入(pathlet embeddings)揭示流派间的交互模式,为推荐系统透明度与社会学研究提供了新工具。该研究发表于计算机信息检索顶刊,推动了可解释推荐系统与计算音乐学交叉领域的发展。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决音乐推荐系统中长期偏好演变的黑箱问题,传统协同过滤方法难以捕捉流派间的非线性时序关联;在构建层面,音乐消费数据的极端稀疏性(20%热门歌曲占据90%流量)导致轨迹重构困难,且流派语义的弱约束性(如金属与爵士的非常规组合)增加了路径学习的复杂度。此外,数据采集需平衡用户隐私与行为真实性,17个月的时间跨度也引入了外部事件干扰的噪声。
常用场景
经典使用场景
Deezer Music Genre Trajectories Dataset 在音乐推荐系统和音乐社会学研究中具有经典应用场景。该数据集通过捕捉用户在不同音乐流派间的长期偏好演变轨迹,为研究音乐消费行为的动态模式提供了丰富素材。在算法层面,研究者利用路径学习(Pathlet Learning)方法从用户历史数据中提取可解释的轨迹嵌入,揭示用户从一种音乐流派转向另一种流派的典型路径模式。这种基于字典学习的稀疏表示方法,能够有效识别用户听歌行为中的重复模式,为理解音乐品味演化提供了量化工具。
解决学术问题
该数据集解决了音乐信息检索领域的若干关键学术问题。首先,它突破了传统黑箱推荐模型的可解释性局限,通过显式的路径嵌入表示用户偏好演变,使推荐结果具有可解释性。其次,数据集中的时序流派分配张量解决了长期音乐偏好建模的挑战,能够捕捉用户品味的兴起与消退过程。此外,基于共同收听历史的轨迹构建方法,为研究不同音乐流派间的交互影响提供了新的分析维度,弥补了传统一阶转移模型的不足。这些突破对提高推荐系统透明度、理解文化消费模式具有重要意义。
衍生相关工作
该数据集衍生出多个经典研究方向。在推荐系统领域,启发了基于知识图谱的音乐流派转移预测模型,如Preference Transition Model的改进版本。在时序建模方面,促进了结合路径学习与循环神经网络的混合推荐框架发展。社会学研究利用该数据验证了布尔迪厄文化资本理论在数字音乐时代的适用性,产生了关于音乐消费与社会分层关系的新发现。算法公平性研究则基于此数据集开发了缓解流行度偏差的新方法,推动了多样性感知推荐系统的进步。这些衍生工作共同推进了音乐信息检索与社会计算领域的交叉发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Agricultural Pests Dataset

Agricultural Pests Classification

kaggle 收录