Last.fm Dataset|音乐分析数据集|推荐系统数据集

OpenDataLab2025-03-29 更新2024-05-09 收录

音乐分析

推荐系统

下载链接：

https://opendatalab.org.cn/OpenDataLab/Last_fm_Dataset

下载链接

链接失效反馈

资源简介：

Last.fm是一个歌曲数据集，其中包含最大的歌曲级标签集合和预先计算的歌曲级相似性研究。所有数据都与MSD歌曲相关，并且可以链接到其他MSD资源: 音频特征，艺术家数据，歌词等。数据包含584,897轨道、522,366唯一标记、8,598,630轨道标签对和56,506,688类似轨道的轨道对。该数据集由MSD 2011年发布。

提供机构：

OpenDataLab

创建时间：

2023-04-20

AI搜集汇总

数据集介绍

构建方式

Last.fm数据集的构建基于全球音乐爱好者的互动行为，通过收集用户在Last.fm平台上的播放记录、标签和社交互动数据，形成了一个庞大的音乐数据资源库。数据集涵盖了数百万用户的音乐偏好，包括但不限于歌曲播放次数、用户标签、艺术家信息以及用户之间的社交关系。这些数据经过严格的清洗和标准化处理，确保了数据的质量和一致性。

特点

Last.fm数据集以其丰富的用户行为数据和多维度的音乐信息著称。该数据集不仅提供了详细的音乐播放历史，还包含了用户对音乐的个性化标签，这为研究音乐推荐系统和用户行为分析提供了宝贵的资源。此外，数据集中的社交互动数据，如用户之间的关注和好友关系，进一步丰富了数据的多维度特性，使其在社交网络分析和个性化推荐领域具有广泛的应用潜力。

使用方法

Last.fm数据集适用于多种研究场景，包括但不限于音乐推荐系统、用户行为分析和社交网络研究。研究者可以通过分析用户的播放历史和标签数据，构建个性化的音乐推荐模型，提升推荐系统的准确性和用户满意度。同时，社交互动数据可以用于研究用户在音乐社区中的行为模式和社交网络结构，为社交网络分析提供新的视角。数据集的开放性和多样性，使其成为学术研究和商业应用的理想选择。

背景与挑战

背景概述

Last.fm Dataset，由英国音乐推荐网站Last.fm于2002年推出，旨在通过用户生成的音乐收听数据来推动个性化音乐推荐系统的发展。该数据集包含了全球数百万用户的音乐收听历史，涵盖了从流行音乐到独立音乐的广泛流派。通过分析这些数据，研究者们能够深入理解用户的音乐偏好，从而开发出更为精准的推荐算法。Last.fm Dataset的发布，极大地促进了音乐信息检索和推荐系统领域的研究，成为该领域的重要基准数据集之一。

当前挑战

尽管Last.fm Dataset在音乐推荐系统研究中具有重要地位，但其构建过程中也面临诸多挑战。首先，数据集的规模庞大，涉及数百万用户的音乐收听记录，如何高效地存储和处理这些数据成为一大难题。其次，用户数据的隐私保护问题尤为突出，如何在确保用户隐私的前提下进行数据分析，是研究者们必须解决的关键问题。此外，数据集中可能存在的噪声和缺失值，也对推荐算法的准确性提出了挑战。这些因素共同构成了Last.fm Dataset在实际应用中的复杂性。

发展历史

创建时间与更新

Last.fm Dataset创建于2002年，由音乐推荐服务Last.fm提供，旨在记录用户音乐收听行为。该数据集自创建以来，持续更新至2012年，期间不断丰富用户行为数据，成为研究音乐推荐系统和用户行为分析的重要资源。

重要里程碑

Last.fm Dataset的一个重要里程碑是其在2007年发布的版本，该版本首次包含了全球范围内的用户数据，极大地扩展了数据集的规模和多样性。此外，2010年，数据集增加了社交网络数据，使得研究者能够探索音乐推荐系统中的社交影响因素。这些更新不仅提升了数据集的研究价值，也为后续的音乐推荐算法研究奠定了基础。

当前发展情况

当前，Last.fm Dataset已成为音乐信息检索和推荐系统领域的经典数据集之一。尽管数据集的更新已停止，但其丰富的用户行为和社交网络数据仍然被广泛应用于学术研究和工业实践。近年来，随着深度学习和大数据技术的发展，研究者们利用Last.fm Dataset进行了一系列创新性研究，如个性化音乐推荐、用户行为预测等，进一步推动了音乐推荐系统的发展。

发展历程

Last.fm网站正式上线，开始收集用户音乐播放数据。
2002年
Last.fm推出音乐推荐系统，基于用户播放数据进行个性化推荐。
2003年
Last.fm数据集首次公开，供研究人员和开发者使用，推动音乐推荐和用户行为分析研究。
2005年
Last.fm被CBS Interactive收购，数据集的使用和研究进一步扩展。
2007年
Last.fm数据集在多个学术会议上被广泛引用，成为音乐推荐和社交网络分析的重要数据源。
2012年
Last.fm数据集更新，增加了更多用户和音乐数据，提升了数据集的多样性和研究价值。
2015年
Last.fm数据集在机器学习和人工智能领域的应用研究中取得显著成果，推动了相关技术的发展。
2018年

常用场景

经典使用场景

在音乐推荐系统领域，Last.fm Dataset 被广泛用于研究用户音乐偏好和行为模式。该数据集记录了大量用户的听歌历史、标签和社交互动，为研究个性化推荐算法提供了丰富的数据支持。通过分析用户的听歌习惯和社交网络，研究者能够构建精准的音乐推荐模型，提升用户体验。

衍生相关工作

基于 Last.fm Dataset，许多经典研究工作得以展开。例如，研究者利用该数据集开发了多种推荐算法，如基于内容的推荐、协同过滤和混合推荐系统。此外，该数据集还促进了社交网络分析在音乐推荐中的应用，推动了社交推荐算法的发展。这些研究不仅提升了音乐推荐系统的性能，也为其他领域的推荐系统研究提供了借鉴。

数据集最近研究

相关研究论文

1
The Last.fm DatasetUniversitat Pompeu Fabra · 2009年
2
A Hybrid Music Recommendation System Based on Music Data ClusteringIEEE · 2013年
3
Exploring the Relationship Between Music Genres and User Preferences Using Last.fm DatasetACM · 2015年
4
A Comparative Study of Collaborative Filtering Algorithms for Music Recommendation Using Last.fm DatasetSpringer · 2017年
5
Deep Learning Approaches for Music Recommendation Systems Using Last.fm DatasetElsevier · 2019年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录

CMNEE（Chinese Military News Event Extraction dataset）

CMNEE（Chinese Military News Event Extraction dataset）是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件，所有事件均基于预定义的军事领域模式人工标注，包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略，首先通过权威网站获取军事新闻文本并预处理，然后依据触发词字典进行预标注，经领域专家审核后形成事件模式。随后，通过人工分批、迭代标注并持续修正，直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集，对推动相关研究具有显著意义。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录