百万歌曲数据集|音乐推荐数据集|数据评估数据集

github2016-06-02 更新2024-05-31 收录

音乐推荐

数据评估

下载链接：

https://github.com/ran784388220/million-songs-dataset

下载链接

链接失效反馈

资源简介：

百万歌曲数据集挑战旨在成为评估音乐推荐系统的最佳离线评估工具。

The Million Song Dataset Challenge aims to serve as the premier offline evaluation tool for assessing music recommendation systems.

创建时间：

2014-06-09

原始信息汇总

数据集概述

数据集名称

百万歌曲数据集（Million Song Dataset）

数据集目的

用于音乐推荐系统的最佳离线评估。

数据集使用

执行文件：million-songss.py，运行后每位用户将获得500首歌曲的推荐。
评估文件：map_evaluation.py，使用mAP（平均精度均值）作为评估指标。

数据集获取

需从以下链接下载数据集： http://labrosa.ee.columbia.edu/millionsong/tasteprofile

AI搜集汇总

数据集介绍

构建方式

百万歌曲数据集的构建，旨在通过收集用户音乐播放历史与对应的歌曲元数据，构建出一个用于评估音乐推荐系统的基准测试集。该数据集的构建涉及从用户品味档案中提取信息，并与大规模歌曲元数据相结合，形成可供机器学习模型训练和评估的基础框架。

特点

该数据集的特点在于其涵盖了海量的歌曲信息，为研究音乐推荐系统提供了丰富的数据资源。采用mAP（平均精度均值）作为评估指标，强调了推荐系统的准确性和有效性。此外，数据集提供了便于使用的脚本，使得研究者和开发者能够快速地进行推荐算法的测试与优化。

使用方法

使用该数据集时，用户首先需要从指定网址下载数据集。随后，通过运行提供的Python脚本'million-songss.py'，用户可以得到针对每个用户的500首歌曲推荐。为了评估推荐质量，用户可以执行'map_evaluation.py'脚本，该脚本会计算并输出mAP值，从而对推荐系统的性能进行量化评估。

背景与挑战

背景概述

百万歌曲数据集，作为音乐推荐系统领域的一项重要资源，其创建旨在为音乐推荐算法提供一种可靠的离线评估手段。该数据集由哥伦比亚大学LabROSA实验室于21世纪初构建，核心研究问题是如何准确评估音乐推荐系统的性能。其研究成果为音乐信息检索和推荐系统领域提供了宝贵的参考，对相关研究的推进产生了深远影响。

当前挑战

该数据集在解决音乐推荐领域问题时，面临的挑战主要包括：如何客观公正地评价推荐系统的效果，即评价标准的设定与实施；如何在海量的音乐数据中提取有效特征，以实现精准推荐；以及如何在保护用户隐私的前提下，充分利用用户数据。在构建过程中，数据集的构建者还需克服了数据收集、清洗、整合等多重难关，确保数据的质量和可用性。

常用场景

经典使用场景

在音乐推荐系统的领域，百万歌曲数据集被广泛用于评估系统的性能。该数据集包含用户与歌曲之间的互动信息，使得研究人员能够通过训练算法为用户生成个性化的歌曲推荐列表，进而实现系统的精准推荐功能。

解决学术问题

该数据集解决了音乐推荐系统中如何准确评估推荐算法性能的问题。通过采用mAP（平均精度均值）作为评价标准，研究人员可以量化推荐系统的准确性和有效性，为学术研究提供了可靠的评价依据。

衍生相关工作

基于百万歌曲数据集，研究人员衍生出多项经典工作，包括但不限于改进推荐算法、用户行为模式分析、音乐分类和标签系统的研究，为音乐信息检索和音乐推荐领域的研究提供了丰富的数据资源和参考实例。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现，包括UIEB、U45和LSUI等数据集，用于支持水下图像增强的研究和开发。

github 收录

NSL-KDD

NSL-KDD数据集是一个用于测试入侵检测算法的网络流量数据集。它是KDD Cup 1999数据集的改进版本，解决了原始数据集中的冗余记录和类别不平衡问题。该数据集包含训练和测试数据文件，以及包含数据集列名的文件。

github 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录