用户历史播放记录数据集

Name: 用户历史播放记录数据集
Creator: 西班牙卡斯蒂利亚-拉曼查大学计算机系统系、澳大利亚莫纳什大学信息技术学院
Published: 2025-05-16 20:56:40
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

https://www.last.fm/user/jimmydj2000/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集收集了单一用户在Last.fm平台上大约15年的历史播放记录，包含超过90,000次播放和约14,000首独特曲目。数据集由用户时间上下文数据构成，每条记录代表用户在特定时刻收听的特定音乐描述符。音乐描述符包括社区贡献的Last.fm标签和Spotify音频特征。数据集的创建过程涉及从Last.fm和Spotify API下载用户播放历史和音频特征数据，并对这些数据进行预处理和聚合，以生成最终的音乐时刻数据集。该数据集旨在解决音乐推荐系统可解释性差的问题，通过分析单个用户的音乐收听习惯和上下文，提供更具针对性的推荐。

This dataset collects approximately 15 years of historical play records from a single user on the Last.fm platform, containing over 90,000 plays and approximately 14,000 unique tracks. Composed of user temporal context data, each record in the dataset represents specific music descriptors associated with the user's listening behavior at a particular moment. The music descriptors include community-contributed Last.fm tags and Spotify audio features. The dataset creation process involves downloading user play history and audio feature data from the Last.fm and Spotify APIs, followed by preprocessing and aggregation of these data to generate the final music moment dataset. This dataset aims to address the poor interpretability issue of music recommendation systems, by analyzing an individual user's music listening habits and context to provide more targeted recommendations.

提供机构：

西班牙卡斯蒂利亚-拉曼查大学计算机系统系、澳大利亚莫纳什大学信息技术学院

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

用户历史播放记录数据集构建于Last.fm平台长达15年的单用户播放轨迹，涵盖超过90,000次播放记录与14,000首独特曲目。研究团队通过API接口系统采集了用户时空情境数据，将每次播放行为转化为包含时间戳、社区标签（Last.fm tags）及音频特征（Spotify features）的结构化记录。采用时间区间聚合策略，以年-月-日-小时为颗粒度单元，对海量标签数据进行降维处理，最终形成包含1,000个关键标签强度值与12项音频特征的音乐时刻数据集。

使用方法

该数据集主要服务于个性化音乐推荐系统的开发与验证。使用流程分为三阶段：首先基于时间上下文预测用户当前偏好的语义标签分布，继而通过回归模型将标签映射为声学特征向量，最终在特征空间检索最匹配的曲目。研究人员可采用模块化设计替换各阶段算法，如尝试不同时序聚合策略或探索多目标回归模型。数据集特别适用于研究长期用户偏好建模、可解释推荐系统等前沿课题，其单用户专注性为个体化推荐算法提供了纯净的实验环境。

背景与挑战

背景概述

用户历史播放记录数据集由Jaime Ramirez-Castillo等人于2025年提出，旨在构建一个以用户为中心的音乐推荐框架。该数据集基于单个用户长达15年的Last.fm音乐播放记录，包含超过90,000次播放记录和约14,000首独特曲目。通过整合Last.fm社区标签和Spotify音频特征，该数据集捕捉了用户在特定时刻的音乐偏好。这一研究为音乐信息检索领域提供了新的视角，强调了用户个性化推荐的重要性，并推动了可解释性推荐系统的发展。

当前挑战

该数据集面临的挑战主要包括两个方面：首先，在领域问题方面，音乐推荐系统需要解决用户偏好的动态性和上下文依赖性，如何准确捕捉用户在特定时刻的音乐需求是一个复杂问题。其次，在构建过程中，数据集整合了多源异构数据（如Last.fm标签和Spotify音频特征），涉及数据稀疏性、标签噪声以及时间序列聚合等技术难题。此外，基于单一用户数据的模型泛化能力也值得进一步探讨。

常用场景

经典使用场景

用户历史播放记录数据集在音乐信息检索领域中被广泛应用于个性化推荐系统的研究与开发。通过分析用户长期的音乐播放行为，该数据集能够捕捉到用户的音乐偏好和习惯，为推荐算法提供丰富的上下文信息。数据集中的时间戳和音乐描述符（如Last.fm标签和Spotify音频特征）使得研究者能够构建时间感知的推荐模型，从而在特定时刻为用户提供高度个性化的音乐推荐。

解决学术问题

该数据集解决了音乐推荐系统中用户偏好建模的若干关键问题。传统的推荐系统往往忽视用户个体差异和上下文信息，导致推荐结果缺乏解释性和个性化。通过利用用户历史播放记录，研究者能够深入分析用户在不同时间段的音乐偏好变化，从而构建更具解释性和用户中心化的推荐模型。此外，数据集还为多目标回归和时序预测等机器学习任务提供了研究基础。

实际应用

在实际应用中，该数据集为音乐流媒体平台提供了改进推荐系统的有力工具。平台可以利用数据集中的用户行为数据，开发出能够适应用户实时情绪和场景的音乐推荐功能。例如，系统可以根据用户早晨通勤或晚间休息时的历史播放模式，自动推荐符合当下场景的音乐。这种个性化推荐不仅提升了用户体验，还能显著增加用户粘性和平台活跃度。

数据集最近研究