Acervans/Lastfm-VADS

Name: Acervans/Lastfm-VADS
Creator: Acervans
Published: 2024-01-30 15:27:16
License: 暂无描述

Hugging Face2024-01-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Acervans/Lastfm-VADS

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过80万条歌曲的Valence（效价）、Arousal（唤醒度）、Dominance（支配度）和Sentiment Ratio（情感比例）值，以及相应的艺术家、专辑和排名标签。数据集最初是为一个学士论文项目而创建的，旨在将情感特征与音乐推荐系统结合。数据通过Last.fm的API收集，情感特征通过分析标签并使用维基百科的定义来提取。数据集包含三个主要文件，分别记录了用户与歌曲的交互、歌曲的特征以及用户的ID。此外，还提供了原始数据的压缩文件，包含了从Last.fm API抓取的JSON和DAT文件。

提供机构：

Acervans

原始信息汇总

Last.fm Valence, Arousal, Dominance & Sentiment Ratio Dataset

数据集概述

该数据集包含超过80万首歌曲的情感值（Valence, Arousal, Dominance）和情感比率（Sentiment Ratio），以及相应的艺术家、专辑和标签。

数据集详情

该数据集是为了用于学士论文而精心策划的，旨在将情感特征集成到音乐推荐系统中，同时结合歌曲固有特征，如艺术家、专辑、交互时间戳和自动分配的评分。

数据集描述

策划者： Javier Wang
语言： 英语

数据集来源

仓库： https://huggingface.co/datasets/Acervans/Lastfm-VADS
演示： https://github.com/Acervans/lastfm_RS

用途

该数据集的特征可以集成到任何机器学习模型中，特别是推荐系统（RecSys）模型，以评估包含的类型（歌曲固有特征或情感特征）的模型性能。这些文件结构化，可以直接在RecBole框架中使用，特别是上下文感知模型，如果需要集成所有特征。

数据集结构

该数据集包含三个原子文件，均使用制表符作为字段分隔符：

lastfm_recbole.inter - 包含用户-歌曲交互，组织为：
- user_id: 用户ID。
- track_id: 歌曲ID。
- rating: 根据用户交互类型分配给歌曲的评分，如果有多个交互类型，则取最高评分。
- timestamp: 交互时间戳。
lastfm_recbole.item - 包含项目特征，组织为：
- track_id: 歌曲ID。
- tags: 标签作为连续的令牌，根据用户分配次数重复，并用空格分隔。
- artist_id: 艺术家ID。
- album_id: 专辑ID。
- v: 歌曲的Valence值。
- a: 歌曲的Arousal值。
- d: 歌曲的Dominance值。
- stsc: 歌曲的Sentiment Ratio值。
lastfm_recbole.user - 包含用户ID。该文件保留以保持处理过程中分配的相同ID。

文件**lastfm_data.tar.gz**包含使用Last.fm的API抓取的原始文件，分布在多个JSON和DAT文件中。请查看其中的Readme.txt以了解这些文件的结构。

源数据

该数据集的源数据来自Last.fm的API。用于分析情感的文本来源（标签定义）来自Wikipedia的API。

数据收集和处理

该数据集通过一个简单的网络爬虫获得。它使用Last.fm的API检索前50个排行榜标签，代表当时最常听的标签。对于每个标签，我们获取与之关联的前独特艺术家和前30个独特听众。然后，我们使用API从顶级听众那里收集数据，获取他们的前20首歌曲、最近播放的歌曲和喜爱的歌曲，每个都有相应的时间戳、艺术家和专辑信息。此外，我们还收集了每个听众的前10位艺术家和专辑。最后，我们获取用户为每个独特歌曲、艺术家和专辑分配的前10个标签，这些标签根据从Wikipedia的API检索的摘要进行定义。

在处理过程中，.inter文件中的评分根据收听次数、交互类型（喜爱、最近、顶级）和排名进行分配。.item文件中的所有标签都经过预处理以减少歧义，去除空格和破折号并转换为小写。然后，这些标签根据用户分配次数重复，以增加每首歌曲的权重。最后，为每首歌曲、用户和专辑分配唯一ID，以符合数据保护原则。

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，情感特征的整合为推荐系统提供了新的维度。本数据集通过Last.fm API系统性地采集了超过80万条曲目数据，涵盖艺术家、专辑及用户交互时间戳。情感特征提取基于用户标注的标签，利用维基百科的通用定义进行情感分析，计算效价、唤醒度、支配度及情感比率。数据采集过程包括获取热门标签、关联艺术家及听众信息，并通过预处理去除标签歧义，确保数据的一致性与可靠性。

特点

该数据集的核心特点在于其多维度的情感标注与丰富的元数据结合。每条曲目不仅包含传统的音乐元数据（如艺术家、专辑），还附有效价、唤醒度、支配度及情感比率等量化情感指标，这些指标源自用户生成的标签经情感分析器处理而得。数据集结构清晰，分为交互文件、项目文件及用户文件，支持直接集成至RecBole框架，适用于上下文感知的推荐模型研究，为音乐推荐中的情感建模提供了标准化基础。

使用方法

在音乐推荐系统的研究中，本数据集可直接应用于机器学习模型，特别是推荐系统模型。用户可通过解析提供的原子文件（如.inter、.item和.user），利用曲目固有特征与情感特征进行模型训练与评估。数据集兼容RecBole框架，便于实现上下文感知的推荐算法。此外，原始数据文件可供进一步分析，支持研究者探索用户交互模式与情感标签之间的深层关联，推动个性化推荐技术的发展。

背景与挑战

背景概述

在音乐信息检索与推荐系统领域，情感特征的整合已成为提升个性化体验的关键研究方向。Lastfm-VADS数据集由Javier Wang于学士论文期间创建，旨在通过融合情感维度与固有音乐特征来优化推荐算法。该数据集依托Last.fm平台的API，采集了超过80万条曲目的效价、唤醒度、支配度及情感比例数据，并关联艺术家、专辑与用户标签信息。其核心研究问题聚焦于如何将情感分析嵌入音乐推荐模型，以增强系统对用户偏好的深层理解，为上下文感知推荐系统的演进提供了重要数据基础。

当前挑战

该数据集致力于解决音乐推荐系统中情感建模的复杂性问题，其挑战在于如何准确量化主观情感标签与音乐内容之间的关联，并克服多维度情感特征在协同过滤模型中的融合难题。在构建过程中，数据采集面临Last.fm API的动态性与规模限制，需通过多层爬取策略平衡数据覆盖度与完整性；同时，情感分析依赖维基百科定义的泛化处理，可能导致标签语义偏差，且原始标签的歧义性与非结构化特性增加了预处理复杂度，需通过去重、归一化等手段确保特征一致性。

常用场景

经典使用场景

在音乐信息检索与推荐系统领域，Lastfm-VADS数据集为研究者提供了融合情感特征的丰富实验平台。其经典使用场景在于构建上下文感知的推荐模型，通过整合曲目固有的元数据（如艺术家、专辑）与情感维度指标（效价、唤醒度、优势度及情感比率），能够模拟用户听歌行为中情感偏好的动态变化，从而优化个性化推荐效果。

衍生相关工作

基于Lastfm-VADS数据集，已衍生出多项经典研究工作，特别是在RecBole推荐框架下的上下文感知模型优化。这些工作探索了情感特征与协同过滤、深度学习模型的结合方式，例如开发新型神经网络架构以融合情感向量，或利用多任务学习同时预测用户评分与情感偏好，显著推动了音乐推荐系统的算法前沿。

数据集最近研究