five

Acervans/Lastfm-VADS

收藏
Hugging Face2024-01-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Acervans/Lastfm-VADS
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含超过80万条歌曲的Valence(效价)、Arousal(唤醒度)、Dominance(支配度)和Sentiment Ratio(情感比例)值,以及相应的艺术家、专辑和排名标签。数据集最初是为一个学士论文项目而创建的,旨在将情感特征与音乐推荐系统结合。数据通过Last.fm的API收集,情感特征通过分析标签并使用维基百科的定义来提取。数据集包含三个主要文件,分别记录了用户与歌曲的交互、歌曲的特征以及用户的ID。此外,还提供了原始数据的压缩文件,包含了从Last.fm API抓取的JSON和DAT文件。

该数据集包含超过80万条歌曲的Valence(效价)、Arousal(唤醒度)、Dominance(支配度)和Sentiment Ratio(情感比例)值,以及相应的艺术家、专辑和排名标签。数据集最初是为一个学士论文项目而创建的,旨在将情感特征与音乐推荐系统结合。数据通过Last.fm的API收集,情感特征通过分析标签并使用维基百科的定义来提取。数据集包含三个主要文件,分别记录了用户与歌曲的交互、歌曲的特征以及用户的ID。此外,还提供了原始数据的压缩文件,包含了从Last.fm API抓取的JSON和DAT文件。
提供机构:
Acervans
原始信息汇总

Last.fm Valence, Arousal, Dominance & Sentiment Ratio Dataset

数据集概述

该数据集包含超过80万首歌曲的情感值(Valence, Arousal, Dominance)和情感比率(Sentiment Ratio),以及相应的艺术家、专辑和标签。

数据集详情

该数据集是为了用于学士论文而精心策划的,旨在将情感特征集成到音乐推荐系统中,同时结合歌曲固有特征,如艺术家、专辑、交互时间戳和自动分配的评分。

数据集描述

  • 策划者: Javier Wang
  • 语言: 英语

数据集来源

  • 仓库: https://huggingface.co/datasets/Acervans/Lastfm-VADS
  • 演示: https://github.com/Acervans/lastfm_RS

用途

该数据集的特征可以集成到任何机器学习模型中,特别是推荐系统(RecSys)模型,以评估包含的类型(歌曲固有特征或情感特征)的模型性能。这些文件结构化,可以直接在RecBole框架中使用,特别是上下文感知模型,如果需要集成所有特征。

数据集结构

该数据集包含三个原子文件,均使用制表符作为字段分隔符:

  • lastfm_recbole.inter - 包含用户-歌曲交互,组织为:
    • user_id: 用户ID。
    • track_id: 歌曲ID。
    • rating: 根据用户交互类型分配给歌曲的评分,如果有多个交互类型,则取最高评分。
    • timestamp: 交互时间戳。
  • lastfm_recbole.item - 包含项目特征,组织为:
    • track_id: 歌曲ID。
    • tags: 标签作为连续的令牌,根据用户分配次数重复,并用空格分隔。
    • artist_id: 艺术家ID。
    • album_id: 专辑ID。
    • v: 歌曲的Valence值。
    • a: 歌曲的Arousal值。
    • d: 歌曲的Dominance值。
    • stsc: 歌曲的Sentiment Ratio值。
  • lastfm_recbole.user - 包含用户ID。该文件保留以保持处理过程中分配的相同ID。

文件**lastfm_data.tar.gz**包含使用Last.fm的API抓取的原始文件,分布在多个JSON和DAT文件中。请查看其中的Readme.txt以了解这些文件的结构。

源数据

该数据集的源数据来自Last.fm的API。用于分析情感的文本来源(标签定义)来自Wikipedia的API

数据收集和处理

该数据集通过一个简单的网络爬虫获得。它使用Last.fm的API检索前50个排行榜标签,代表当时最常听的标签。对于每个标签,我们获取与之关联的前独特艺术家和前30个独特听众。然后,我们使用API从顶级听众那里收集数据,获取他们的前20首歌曲、最近播放的歌曲和喜爱的歌曲,每个都有相应的时间戳、艺术家和专辑信息。此外,我们还收集了每个听众的前10位艺术家和专辑。最后,我们获取用户为每个独特歌曲、艺术家和专辑分配的前10个标签,这些标签根据从Wikipedia的API检索的摘要进行定义。

在处理过程中,.inter文件中的评分根据收听次数、交互类型(喜爱、最近、顶级)和排名进行分配。.item文件中的所有标签都经过预处理以减少歧义,去除空格和破折号并转换为小写。然后,这些标签根据用户分配次数重复,以增加每首歌曲的权重。最后,为每首歌曲、用户和专辑分配唯一ID,以符合数据保护原则。

搜集汇总
数据集介绍
main_image_url
构建方式
在音乐信息检索领域,情感特征的整合为推荐系统提供了新的维度。本数据集通过Last.fm API系统性地采集了超过80万条曲目数据,涵盖艺术家、专辑及用户交互时间戳。情感特征提取基于用户标注的标签,利用维基百科的通用定义进行情感分析,计算效价、唤醒度、支配度及情感比率。数据采集过程包括获取热门标签、关联艺术家及听众信息,并通过预处理去除标签歧义,确保数据的一致性与可靠性。
特点
该数据集的核心特点在于其多维度的情感标注与丰富的元数据结合。每条曲目不仅包含传统的音乐元数据(如艺术家、专辑),还附有效价、唤醒度、支配度及情感比率等量化情感指标,这些指标源自用户生成的标签经情感分析器处理而得。数据集结构清晰,分为交互文件、项目文件及用户文件,支持直接集成至RecBole框架,适用于上下文感知的推荐模型研究,为音乐推荐中的情感建模提供了标准化基础。
使用方法
在音乐推荐系统的研究中,本数据集可直接应用于机器学习模型,特别是推荐系统模型。用户可通过解析提供的原子文件(如.inter、.item和.user),利用曲目固有特征与情感特征进行模型训练与评估。数据集兼容RecBole框架,便于实现上下文感知的推荐算法。此外,原始数据文件可供进一步分析,支持研究者探索用户交互模式与情感标签之间的深层关联,推动个性化推荐技术的发展。
背景与挑战
背景概述
在音乐信息检索与推荐系统领域,情感特征的整合已成为提升个性化体验的关键研究方向。Lastfm-VADS数据集由Javier Wang于学士论文期间创建,旨在通过融合情感维度与固有音乐特征来优化推荐算法。该数据集依托Last.fm平台的API,采集了超过80万条曲目的效价、唤醒度、支配度及情感比例数据,并关联艺术家、专辑与用户标签信息。其核心研究问题聚焦于如何将情感分析嵌入音乐推荐模型,以增强系统对用户偏好的深层理解,为上下文感知推荐系统的演进提供了重要数据基础。
当前挑战
该数据集致力于解决音乐推荐系统中情感建模的复杂性问题,其挑战在于如何准确量化主观情感标签与音乐内容之间的关联,并克服多维度情感特征在协同过滤模型中的融合难题。在构建过程中,数据采集面临Last.fm API的动态性与规模限制,需通过多层爬取策略平衡数据覆盖度与完整性;同时,情感分析依赖维基百科定义的泛化处理,可能导致标签语义偏差,且原始标签的歧义性与非结构化特性增加了预处理复杂度,需通过去重、归一化等手段确保特征一致性。
常用场景
经典使用场景
在音乐信息检索与推荐系统领域,Lastfm-VADS数据集为研究者提供了融合情感特征的丰富实验平台。其经典使用场景在于构建上下文感知的推荐模型,通过整合曲目固有的元数据(如艺术家、专辑)与情感维度指标(效价、唤醒度、优势度及情感比率),能够模拟用户听歌行为中情感偏好的动态变化,从而优化个性化推荐效果。
衍生相关工作
基于Lastfm-VADS数据集,已衍生出多项经典研究工作,特别是在RecBole推荐框架下的上下文感知模型优化。这些工作探索了情感特征与协同过滤、深度学习模型的结合方式,例如开发新型神经网络架构以融合情感向量,或利用多任务学习同时预测用户评分与情感偏好,显著推动了音乐推荐系统的算法前沿。
数据集最近研究
最新研究方向
在音乐信息检索领域,Lastfm-VADS数据集以其融合情感维度与用户交互数据的特性,为推荐系统研究开辟了新路径。当前前沿探索聚焦于将情感特征(如效价、唤醒度、支配度)深度整合至上下文感知推荐模型中,以优化个性化音乐推荐的情感契合度。热点事件包括利用该数据集在RecBole框架下进行多模态学习实验,结合标签语义分析与时序交互数据,以应对音乐流媒体平台中用户情感动态演化的挑战。这一方向不仅提升了推荐系统的解释性与用户满意度,也为跨领域情感计算研究提供了实证基础,具有推动音乐人工智能向更细腻人性化方向发展的深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作