vectors2vibes-discogs-metadata
收藏Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/vectors2vibes/vectors2vibes-discogs-metadata
下载链接
链接失效反馈官方服务:
资源简介:
Vectors2Vibes Discogs Metadata 是一个包含22,500条音乐曲目元数据的数据集,源自MTG Discogs-VI-YT数据集(不包含音频文件)。该数据集整合了Discogs和YouTube的元数据,其中Discogs元数据较为稀疏,YouTube元数据作为补充但可能存在可靠性问题。数据经过严格处理流程:从原始493k曲目中筛选出65k子集,再通过匹配置信度过滤和可访问性检查,最终保留22.5k高质量曲目。数据集包含丰富的元数据字段,如曲目标题(track_title)、发行年份(released)、艺术家(release_artist_names)、专辑(release_title)、流派(release_genres)、子流派(release_styles)、发行国家(country)、唱片公司(labels)、时长(duration)等,每个字段都标注了数据来源(Discogs/YT/Processed)。该数据集适用于音乐信息检索(MIR)、音乐元数据分析等研究场景。注意:配套的YouTube缩略图可通过公开的姊妹仓库获取。
创建时间:
2026-03-01
原始信息汇总
Vectors2Vibes Discogs Metadata 数据集概述
数据集基本信息
- 数据集名称:Vectors2Vibes Discogs Metadata
- 语言:英语
- 标签:metadata, music, mir, discogs
- 许可证:cc-by-nc-sa-4.0
- 数据内容:包含22.5k条音轨的元数据,不包含音频文件。
数据来源与处理
- 原始来源:数据派生自 MTG Discogs-VI-YT 中的
Discogs-VI-YT-20240701.jsonl文件(包含493k条音轨)。 - 初始子集:从原始数据中下载了65k条音轨的子集。
- 过滤与清洗:
- 剔除了匹配置信度低(
match_type < 1)的音轨。 - 剔除了无法通过
yt-dlp访问的音轨,最终得到22.5k条音轨。 - 对音轨标题进行了后处理。
- 在Discogs元数据值为空时,使用了YouTube元数据作为回退补充。
- 剔除了匹配置信度低(
- 数据说明:Discogs元数据本身较为稀疏,且初步观察表明YouTube元数据并不可靠,建议未来开发探索替代的元数据源。
关联仓库
- 仓库名称:Thumbnails
- 内容:YouTube JPG预览图
- 访问权限:公开
数据列参考
| 列名 | 来源 | 描述 | 示例 |
|---|---|---|---|
file_path |
Processed | 音频文件路径(私有) | 01/01eJ74hd9.ogg |
id |
YT | YouTube视频ID | 01eJ74hd9 |
track_title |
Discogs/YT | 音轨标题(不含后缀) | Hey Jude |
released |
Discogs/YT | 发行年份 | 1968 |
release_artist_names |
Discogs/YT | 艺术家名称 | [The Beatles] |
release_title |
Discogs/YT | 专辑/发行物名称 | The Beatles 1967-1970 |
release_genres |
Discogs | 流派 | [Rock, Pop] |
release_styles |
Discogs | 子流派/风格 | [Psychedelic Rock] |
country |
Discogs | 发行国家 | UK |
labels |
Discogs | 唱片厂牌 | [Apple Records] |
duration |
YT | 时长(秒) | 188 |
webpage_url |
YT | YouTube视频URL | https://www.youtube.com/... |
thumbnail |
YT | YouTube缩略图URL | https://i.ytimg.com/vi/... |
thumbnail_path |
Processed | 缩略图文件路径 | thumbnails/01/01eJ74hd9.jpg |
source_corpus |
MTG/Discogs | 数据来源标识 | Discogs-VI-YT-20240701 |
ingest_bath |
Processed | V2V导出日期 | 20260228-audio-batch |
搜集汇总
数据集介绍
构建方式
在音乐信息检索领域,构建高质量的数据集对于模型训练至关重要。Vectors2Vibes Discogs Metadata 数据集源自 MTG 的 Discogs-VI-YT 项目,其构建过程经过精心设计。初始数据来源于 Discogs-VI-YT-20240701.jsonl 文件,该文件包含了约 49.3 万条曲目记录。构建团队首先从中下载了一个包含 6.5 万条曲目的子集,随后应用了严格的过滤标准,剔除了匹配置信度较低的条目以及无法通过 yt-dlp 工具访问的曲目,最终保留了 2.25 万条高质量记录。在数据清洗阶段,对曲目标题进行了后处理,并在 Discogs 元数据缺失的情况下,补充了来自 YouTube 的备用信息,从而确保了数据集的完整性与可用性。
特点
该数据集作为音乐元数据的集合,具有鲜明的特点。它专注于提供丰富的文本元信息,不包含任何音频文件本身,这使其特别适用于基于元数据的音乐分析、分类或推荐系统研究。数据集融合了 Discogs 和 YouTube 双来源的元数据,涵盖了曲目标题、发行年份、艺术家、专辑、流派、风格、发行国家、唱片公司以及时长等多种维度。值得注意的是,由于 Discogs 的原始数据存在稀疏性,YouTube 元数据被用作补充,但初步观察表明后者可靠性有限,这为后续研究指出了改进方向。数据集结构清晰,每一条记录都包含详细的来源标注和处理批次信息,便于追溯与验证。
使用方法
对于希望利用该数据集的研究者而言,其使用方法直接而明确。用户可以通过 Hugging Face 平台访问该数据集,获取包含 2.25 万条曲目元数据的结构化文件。数据集的主要价值在于其丰富的标注信息,研究人员可以依据‘release_genres’、‘release_styles’等字段进行音乐流派分类或风格演化分析;也可以利用‘released’、‘country’、‘labels’等字段进行音乐社会学或产业研究。由于不包含音频,该数据集常与音频特征向量或其他音频数据集结合使用。此外,其关联的公开姊妹仓库提供了对应的 YouTube 视频缩略图,可供多模态研究参考。在使用时,用户需注意数据许可协议为 CC-BY-NC-SA 4.0,并应审慎评估 YouTube 备用元数据的可靠性。
背景与挑战
背景概述
在音乐信息检索领域,高质量的元数据对于音乐分析、推荐系统及文化研究至关重要。Vectors2Vibes Discogs Metadata数据集由MTG研究机构于2024年构建,旨在从Discogs-VI-YT数据源中提取22.5万条曲目元数据,以支持音乐风格分类、艺术家识别及音频特征关联等核心研究问题。该数据集整合了Discogs的专业音乐元数据与YouTube的补充信息,为学术界提供了大规模、结构化的音乐元数据资源,显著推动了音乐信息检索与计算音乐学的发展。
当前挑战
该数据集致力于解决音乐元数据稀疏性与可靠性问题,挑战在于如何从异构数据源中准确提取并融合音乐信息,以支持精准的音乐分类与检索。在构建过程中,主要挑战包括Discogs元数据本身的稀疏性,以及YouTube元数据作为后备来源时存在的不准确性问题;同时,数据清洗环节需处理低置信度匹配的曲目,并应对音频文件访问限制,这增加了数据筛选与验证的复杂性。
常用场景
经典使用场景
在音乐信息检索领域,Vectors2Vibes Discogs Metadata数据集常被用于音乐分类与风格分析任务。研究者利用其丰富的元数据字段,如release_genres和release_styles,构建监督学习模型以自动识别曲目的流派与子风格。该数据集通过整合Discogs的权威音乐元数据与YouTube的补充信息,为算法提供了多源标注,从而支持对音乐内容的细粒度语义理解。
解决学术问题
该数据集有效缓解了音乐信息检索中高质量标注数据稀缺的挑战。其通过融合Discogs的结构化元数据与YouTube的辅助信息,为学术研究提供了大规模、多属性的音乐标注资源。这促进了音乐风格演化分析、跨模态音乐检索以及音乐推荐系统等方向的发展,为探索音乐语义与听觉特征之间的关联奠定了数据基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在音乐嵌入表示学习与跨模态对齐研究。例如,有研究利用其元数据训练深度神经网络,生成能够捕捉音乐风格语义的向量表示。另一系列工作则探索如何将音频特征与Discogs提供的文本元数据进行对齐,以构建统一的音乐多模态表征模型,推动了音乐理解技术的进步。
以上内容由遇见数据集搜集并总结生成



