用户历史播放记录数据集
收藏arXiv2025-05-16 更新2025-05-20 收录
下载链接:
https://www.last.fm/user/jimmydj2000/
下载链接
链接失效反馈资源简介:
该数据集收集了单一用户在Last.fm平台上大约15年的历史播放记录,包含超过90,000次播放和约14,000首独特曲目。数据集由用户时间上下文数据构成,每条记录代表用户在特定时刻收听的特定音乐描述符。音乐描述符包括社区贡献的Last.fm标签和Spotify音频特征。数据集的创建过程涉及从Last.fm和Spotify API下载用户播放历史和音频特征数据,并对这些数据进行预处理和聚合,以生成最终的音乐时刻数据集。该数据集旨在解决音乐推荐系统可解释性差的问题,通过分析单个用户的音乐收听习惯和上下文,提供更具针对性的推荐。
This dataset compiles approximately 15 years of historical listening records from a single user on the Last.fm platform, encompassing over 90,000 playback events and roughly 14,000 unique musical tracks. The dataset is structured around user temporal context data, with each entry corresponding to specific music descriptors tied to the user’s listening activity at a given point in time. The music descriptors include community-curated Last.fm tags and Spotify audio features. The development of this dataset entails downloading user listening history and audio feature data via the Last.fm and Spotify APIs, followed by data preprocessing and aggregation steps to produce the final music moment dataset. This dataset is designed to address the poor interpretability of music recommendation systems, by analyzing individual users’ music listening habits and contextual information to deliver more targeted recommendations.
提供机构:
西班牙卡斯蒂利亚-拉曼查大学计算机系统系、澳大利亚莫纳什大学信息技术学院
创建时间:
2025-05-16
AI搜集汇总
数据集介绍

构建方式
用户历史播放记录数据集构建于Last.fm平台长达15年的单用户播放轨迹,涵盖超过90,000次播放记录与14,000首独特曲目。研究团队通过API接口系统采集了用户时空情境数据,将每次播放行为转化为包含时间戳、社区标签(Last.fm tags)及音频特征(Spotify features)的结构化记录。采用时间区间聚合策略,以年-月-日-小时为颗粒度单元,对海量标签数据进行降维处理,最终形成包含1,000个关键标签强度值与12项音频特征的音乐时刻数据集。
使用方法
该数据集主要服务于个性化音乐推荐系统的开发与验证。使用流程分为三阶段:首先基于时间上下文预测用户当前偏好的语义标签分布,继而通过回归模型将标签映射为声学特征向量,最终在特征空间检索最匹配的曲目。研究人员可采用模块化设计替换各阶段算法,如尝试不同时序聚合策略或探索多目标回归模型。数据集特别适用于研究长期用户偏好建模、可解释推荐系统等前沿课题,其单用户专注性为个体化推荐算法提供了纯净的实验环境。
背景与挑战
背景概述
用户历史播放记录数据集由Jaime Ramirez-Castillo等人于2025年提出,旨在构建一个以用户为中心的音乐推荐框架。该数据集基于单个用户长达15年的Last.fm音乐播放记录,包含超过90,000次播放记录和约14,000首独特曲目。通过整合Last.fm社区标签和Spotify音频特征,该数据集捕捉了用户在特定时刻的音乐偏好。这一研究为音乐信息检索领域提供了新的视角,强调了用户个性化推荐的重要性,并推动了可解释性推荐系统的发展。
当前挑战
该数据集面临的挑战主要包括两个方面:首先,在领域问题方面,音乐推荐系统需要解决用户偏好的动态性和上下文依赖性,如何准确捕捉用户在特定时刻的音乐需求是一个复杂问题。其次,在构建过程中,数据集整合了多源异构数据(如Last.fm标签和Spotify音频特征),涉及数据稀疏性、标签噪声以及时间序列聚合等技术难题。此外,基于单一用户数据的模型泛化能力也值得进一步探讨。
常用场景
经典使用场景
用户历史播放记录数据集在音乐信息检索领域中被广泛应用于个性化推荐系统的研究与开发。通过分析用户长期的音乐播放行为,该数据集能够捕捉到用户的音乐偏好和习惯,为推荐算法提供丰富的上下文信息。数据集中的时间戳和音乐描述符(如Last.fm标签和Spotify音频特征)使得研究者能够构建时间感知的推荐模型,从而在特定时刻为用户提供高度个性化的音乐推荐。
解决学术问题
该数据集解决了音乐推荐系统中用户偏好建模的若干关键问题。传统的推荐系统往往忽视用户个体差异和上下文信息,导致推荐结果缺乏解释性和个性化。通过利用用户历史播放记录,研究者能够深入分析用户在不同时间段的音乐偏好变化,从而构建更具解释性和用户中心化的推荐模型。此外,数据集还为多目标回归和时序预测等机器学习任务提供了研究基础。
实际应用
在实际应用中,该数据集为音乐流媒体平台提供了改进推荐系统的有力工具。平台可以利用数据集中的用户行为数据,开发出能够适应用户实时情绪和场景的音乐推荐功能。例如,系统可以根据用户早晨通勤或晚间休息时的历史播放模式,自动推荐符合当下场景的音乐。这种个性化推荐不仅提升了用户体验,还能显著增加用户粘性和平台活跃度。
数据集最近研究
最新研究方向
在音乐信息检索领域,用户历史播放记录数据集正逐渐成为个性化推荐系统的核心研究资源。近期研究聚焦于如何通过深度学习模型挖掘用户长期听歌行为中的时序模式,结合Last.fm社区标签与Spotify音频特征的多模态融合,构建可解释的推荐框架。2025年Ramirez-Castillo等人提出的四阶段管道模型,首次实现了基于单用户15年播放数据的上下文感知推荐,其中舞蹈性特征的预测准确率达到RMSE 0.09,为音乐流媒体平台的实时个性化服务提供了新范式。该方向与当前可解释AI的研究热点深度契合,其创新性在于将传统协同过滤的群体偏好分析,转向对个体音乐审美演变的建模,这对解决推荐系统的冷启动问题和提升用户黏性具有重要价值。
相关研究论文
- 1User-centric Music Recommendations西班牙卡斯蒂利亚-拉曼查大学计算机系统系、澳大利亚莫纳什大学信息技术学院 · 2025年
以上内容由AI搜集并总结生成



