Music Streaming Sessions Dataset (MSSD)
收藏arXiv2020-10-15 更新2024-06-21 收录
下载链接:
http://research.spotify.com/datasets/music-streaming-sessions
下载链接
链接失效反馈官方服务:
资源简介:
音乐流媒体会话数据集(MSSD)是由Spotify Research创建的大型数据集,包含1.6亿个听歌会话及其相关的用户行为信息。数据集涵盖了约370万个独特曲目的音频特征和元数据,是目前公开的最大此类曲目元数据集合。MSSD不仅支持音乐信息检索(MIR)和基于会话的序列推荐研究,还特别包含了一部分使用均匀随机推荐设置收集的会话,用于反事实评估序列推荐。此外,数据集还提供了用户行为的分析,并提出了进一步的研究问题,旨在解决音乐流媒体服务中的核心挑战,如预测用户何时跳过曲目或切换听歌环境。
The Music Streaming Session Dataset (MSSD) is a large-scale dataset created by Spotify Research, containing 160 million music listening sessions and their associated user behavior information. The dataset covers audio features and metadata for approximately 3.7 million unique tracks, making it the largest publicly available collection of such track metadata to date. MSSD not only supports research in music information retrieval (MIR) and session-based sequential recommendation, but also specifically includes a portion of sessions collected under uniform random recommendation settings for counterfactual evaluation of sequential recommendation systems. Additionally, the dataset provides analyses of user behavior and proposes further research questions aimed at addressing core challenges in music streaming services, such as predicting when users will skip tracks or switch their listening environments.
提供机构:
Spotify Research
创建时间:
2018-12-31
搜集汇总
数据集介绍
构建方式
音乐流媒体服务面临的核心挑战之一是理解用户如何与提供的内容互动。为了推动这一领域的研究,研究人员发布了音乐流媒体会话数据集(MSSD),该数据集包含了1.6亿个听歌会话和相关的用户行为信息。此外,他们还提供了约370万首独特歌曲的音频特征和元数据,这是目前公开可用的最大歌曲元数据集合。数据集的会话是从8周内的合格听歌会话中随机采样得到的,每个会话包含不超过20首歌曲,以确保隐私性。
特点
MSSD数据集的特点在于其规模庞大,包含了1.6亿个听歌会话,这使得研究人员能够深入研究用户如何在流媒体平台上与音乐互动。此外,数据集提供了丰富的音频特征和元数据,包括声学特性、节奏强度、活力等,这些特征可以帮助研究人员更好地理解音乐内容和用户偏好之间的关系。数据集还包含了一个使用均匀随机播放功能的会话子集,这使得研究人员能够使用反事实方法进行评估。
使用方法
使用MSSD数据集的方法包括分析用户跳过行为和上下文切换行为,以及研究基于会话的序列推荐系统。研究人员可以利用数据集中的会话信息、音频特征和元数据来构建和评估推荐算法。此外,数据集中的随机播放会话子集可以用于反事实评估,帮助研究人员在不影响用户体验的情况下测试新的算法。数据集还提供了用户行为和上下文切换的统计分析,为研究人员提供了进一步研究的方向。
背景与挑战
背景概述
音乐流媒体服务在现代生活中扮演着越来越重要的角色,理解用户如何与这些服务互动成为了研究者和开发者的关键任务。然而,公开可用的用户交互数据集的缺乏限制了相关研究的深入。为了促进这一领域的研究,Spotify Research于2019年发布了Music Streaming Sessions Dataset (MSSD)。该数据集包含了超过1.6亿次的聆听会话及其相关的用户行为信息,以及大约370万首独特音轨的音频特征和元数据。MSSD是目前公开可用的最大规模的音乐流媒体用户交互数据集,它为研究者提供了探索用户聆听和交互行为的模型,以及音乐信息检索(MIR)和基于会话的序列推荐等重要问题。此外,数据集中的一部分会话是通过均匀随机推荐设置收集的,这为这些序列推荐的因果评估提供了可能。
当前挑战
MSSD数据集在音乐流媒体服务领域解决了一些重要问题,但也面临一些挑战。首先,如何有效地模拟用户的聆听和交互行为是一个挑战。其次,构建过程中,确保用户隐私和数据安全也是一个重要的问题。此外,数据集中包含的用户行为数据如何与音频特征和元数据进行有效整合,以支持更深入的研究,也是一个有待解决的问题。最后,随着用户行为的变化和技术的进步,如何更新和维护这个数据集以保持其相关性和实用性,也是一个挑战。
常用场景
经典使用场景
MSSD数据集为音乐流媒体服务提供了用户交互和音频特征的详细记录,为研究用户行为和交互模式提供了丰富的数据资源。通过分析用户跳过曲目和在不同上下文之间切换的行为,该数据集有助于开发更有效的推荐系统。此外,MSSD还提供了均匀随机洗牌的会话子集,使得研究人员能够使用反事实方法来评估序列推荐算法,从而无需在线A/B测试即可进行算法评估。
实际应用
MSSD数据集的实际应用场景包括但不限于开发更有效的推荐系统、优化用户体验、预测用户跳过曲目和在不同上下文之间切换的行为等。此外,MSSD还可以用于开发音乐信息检索(MIR)算法、研究用户干预自动系统、进行离线评估推荐系统指标和奖励模型等。
衍生相关工作
MSSD数据集的发布促进了音乐流媒体服务领域中用户行为和交互模式的研究。该数据集的发布推动了序列推荐算法和反事实评估方法的发展,为研究人员提供了丰富的数据资源和研究基础。此外,MSSD还可以用于开发音乐信息检索(MIR)算法、研究用户干预自动系统、进行离线评估推荐系统指标和奖励模型等,从而进一步推动音乐流媒体服务领域的研究和发展。
以上内容由遇见数据集搜集并总结生成



