five

用户历史播放记录数据集|音乐推荐数据集|用户行为分析数据集

收藏
arXiv2025-05-16 更新2025-05-20 收录
音乐推荐
用户行为分析
下载链接:
https://www.last.fm/user/jimmydj2000/
下载链接
链接失效反馈
资源简介:
该数据集收集了单一用户在Last.fm平台上大约15年的历史播放记录,包含超过90,000次播放和约14,000首独特曲目。数据集由用户时间上下文数据构成,每条记录代表用户在特定时刻收听的特定音乐描述符。音乐描述符包括社区贡献的Last.fm标签和Spotify音频特征。数据集的创建过程涉及从Last.fm和Spotify API下载用户播放历史和音频特征数据,并对这些数据进行预处理和聚合,以生成最终的音乐时刻数据集。该数据集旨在解决音乐推荐系统可解释性差的问题,通过分析单个用户的音乐收听习惯和上下文,提供更具针对性的推荐。
提供机构:
西班牙卡斯蒂利亚-拉曼查大学计算机系统系、澳大利亚莫纳什大学信息技术学院
创建时间:
2025-05-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
用户历史播放记录数据集构建于Last.fm平台长达15年的单用户播放轨迹,涵盖超过90,000次播放记录与14,000首独特曲目。研究团队通过API接口系统采集了用户时空情境数据,将每次播放行为转化为包含时间戳、社区标签(Last.fm tags)及音频特征(Spotify features)的结构化记录。采用时间区间聚合策略,以年-月-日-小时为颗粒度单元,对海量标签数据进行降维处理,最终形成包含1,000个关键标签强度值与12项音频特征的音乐时刻数据集。
使用方法
该数据集主要服务于个性化音乐推荐系统的开发与验证。使用流程分为三阶段:首先基于时间上下文预测用户当前偏好的语义标签分布,继而通过回归模型将标签映射为声学特征向量,最终在特征空间检索最匹配的曲目。研究人员可采用模块化设计替换各阶段算法,如尝试不同时序聚合策略或探索多目标回归模型。数据集特别适用于研究长期用户偏好建模、可解释推荐系统等前沿课题,其单用户专注性为个体化推荐算法提供了纯净的实验环境。
背景与挑战
背景概述
用户历史播放记录数据集由Jaime Ramirez-Castillo等人于2025年提出,旨在构建一个以用户为中心的音乐推荐框架。该数据集基于单个用户长达15年的Last.fm音乐播放记录,包含超过90,000次播放记录和约14,000首独特曲目。通过整合Last.fm社区标签和Spotify音频特征,该数据集捕捉了用户在特定时刻的音乐偏好。这一研究为音乐信息检索领域提供了新的视角,强调了用户个性化推荐的重要性,并推动了可解释性推荐系统的发展。
当前挑战
该数据集面临的挑战主要包括两个方面:首先,在领域问题方面,音乐推荐系统需要解决用户偏好的动态性和上下文依赖性,如何准确捕捉用户在特定时刻的音乐需求是一个复杂问题。其次,在构建过程中,数据集整合了多源异构数据(如Last.fm标签和Spotify音频特征),涉及数据稀疏性、标签噪声以及时间序列聚合等技术难题。此外,基于单一用户数据的模型泛化能力也值得进一步探讨。
常用场景
经典使用场景
用户历史播放记录数据集在音乐信息检索领域中被广泛应用于个性化推荐系统的研究与开发。通过分析用户长期的音乐播放行为,该数据集能够捕捉到用户的音乐偏好和习惯,为推荐算法提供丰富的上下文信息。数据集中的时间戳和音乐描述符(如Last.fm标签和Spotify音频特征)使得研究者能够构建时间感知的推荐模型,从而在特定时刻为用户提供高度个性化的音乐推荐。
解决学术问题
该数据集解决了音乐推荐系统中用户偏好建模的若干关键问题。传统的推荐系统往往忽视用户个体差异和上下文信息,导致推荐结果缺乏解释性和个性化。通过利用用户历史播放记录,研究者能够深入分析用户在不同时间段的音乐偏好变化,从而构建更具解释性和用户中心化的推荐模型。此外,数据集还为多目标回归和时序预测等机器学习任务提供了研究基础。
实际应用
在实际应用中,该数据集为音乐流媒体平台提供了改进推荐系统的有力工具。平台可以利用数据集中的用户行为数据,开发出能够适应用户实时情绪和场景的音乐推荐功能。例如,系统可以根据用户早晨通勤或晚间休息时的历史播放模式,自动推荐符合当下场景的音乐。这种个性化推荐不仅提升了用户体验,还能显著增加用户粘性和平台活跃度。
数据集最近研究
最新研究方向
在音乐信息检索领域,用户历史播放记录数据集正逐渐成为个性化推荐系统的核心研究资源。近期研究聚焦于如何通过深度学习模型挖掘用户长期听歌行为中的时序模式,结合Last.fm社区标签与Spotify音频特征的多模态融合,构建可解释的推荐框架。2025年Ramirez-Castillo等人提出的四阶段管道模型,首次实现了基于单用户15年播放数据的上下文感知推荐,其中舞蹈性特征的预测准确率达到RMSE 0.09,为音乐流媒体平台的实时个性化服务提供了新范式。该方向与当前可解释AI的研究热点深度契合,其创新性在于将传统协同过滤的群体偏好分析,转向对个体音乐审美演变的建模,这对解决推荐系统的冷启动问题和提升用户黏性具有重要价值。
相关研究论文
  • 1
    User-centric Music Recommendations西班牙卡斯蒂利亚-拉曼查大学计算机系统系、澳大利亚莫纳什大学信息技术学院 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UCI Machine Learning Repository

UCI机器学习库是一个包含数据库、领域理论和数据生成器的集合,这些被机器学习社区用于机器学习算法的实证分析。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录