electronic-music-knowledge
收藏Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/NaturNestAI/electronic-music-knowledge
下载链接
链接失效反馈官方服务:
资源简介:
Electronic Music Knowledge 是目前最大的开源电子音乐元数据集,包含1830万首曲目、140万艺术家、35.3万唱片公司和832种音乐流派及其演变图谱。该数据集最初为自主AI DJ系统(DJ Treta)构建,但同样适用于任何音乐AI研究。数据集包含五个主要配置:1) tracks(曲目信息,包括标题、艺术家、流派/风格、唱片公司、年份、国家等);2) artists(艺术家信息,包括主要流派、所属唱片公司、国家、活跃年份及曲目数量);3) labels(唱片公司信息,包括流派、国家及创立年份);4) genres(电子音乐流派分类,包含BPM范围及典型能量等级);5) genre_graph(流派演变关系及时序范围)。数据主要来源于Discogs Data Dump(CC0 1.0许可)和Ishkur's Guide to Electronic Music v3(开放许可),未来计划增加BPM、调性等音乐特征数据。数据集采用CC0 1.0 Universal许可,可自由使用。
创建时间:
2026-04-14
原始信息汇总
Electronic Music Knowledge 数据集概述
数据集基本信息
- 数据集名称: Electronic Music Knowledge
- 发布者: NaturNest AI
- 发布日期: 2026年
- 许可证: CC0 1.0 Universal
- 语言: 英语
- 任务类别: 文本分类、特征提取
- 标签: 音乐、电子音乐、DJ、音乐信息检索、知识图谱、流派分类、Discogs、Ishkur
- 数据规模: 10M < n < 100M
数据集构成与规模
该数据集包含五个配置,具体如下:
| 配置名称 | 数据量 | 描述 |
|---|---|---|
tracks |
18,315,675 行 | 包含标题、艺术家、流派/风格、厂牌、年份、国家等信息的电子音乐曲目 |
artists |
1,424,582 行 | 包含主要流派、厂牌、国家、活跃年份、曲目数量等信息的艺术家 |
labels |
352,984 行 | 包含流派、国家、创立年份等信息的唱片厂牌 |
genres |
832 行 | 来自 Ishkurs Guide 和 Discogs 的电子音乐流派分类法(其中166个流派包含BPM范围) |
genre_graph |
352 行 | 包含时间范围的流派演化关系 |
数据模式(Schema)
tracks 配置
| 列名 | 类型 | 描述 |
|---|---|---|
id |
string | 唯一曲目标识符 |
title |
string | 曲目/发行标题 |
artist_name |
string | 艺术家名称 |
discogs_artist_id |
string | Discogs 艺术家 ID |
discogs_release_id |
string | Discogs 发行 ID |
subgenre |
string | 主要的 Discogs 风格(例如 "Melodic House & Techno") |
styles_json |
string | 所有 Discogs 风格的 JSON 数组 |
label |
string | 唱片厂牌名称 |
country |
string | 发行国家 |
year |
int | 发行年份 |
search_query |
string | 预计算的 "Artist - Title" 字符串,用于 YouTube/音乐搜索 |
source |
string | 数据来源("discogs" 或 "ishkur") |
artists 配置
| 列名 | 类型 | 描述 |
|---|---|---|
id |
string | "discogs:{artist_id}" |
name |
string | 艺术家名称 |
primary_genres |
string | 主要流派/风格 |
labels |
string | 已知厂牌 |
country |
string | 来源国家 |
active_since |
int | 最早发行年份 |
track_count |
int | 数据集中包含的曲目数量 |
genres 配置
| 列名 | 类型 | 描述 |
|---|---|---|
id |
string | 流派缩写 |
name |
string | 流派名称 |
scene |
string | Ishkur 场景分组(House, Techno, Trance 等) |
bpm_low / bpm_high |
int | 典型的 BPM 范围 |
energy_typical |
int | 典型的能量水平(1-10) |
aliases |
string | 流派别名 |
labels 配置
| 列名 | 类型 | 描述 |
|---|---|---|
id |
string | "discogs:{label_id}" |
name |
string | 厂牌名称 |
primary_genres |
string | 主要流派 |
country |
string | 国家 |
founded_year |
int | 最早发行年份 |
genre_graph 配置
| 列名 | 类型 | 描述 |
|---|---|---|
source_genre |
string | 产生影响的流派 |
target_genre |
string | 受影响的流派 |
start_year / end_year |
int | 影响的时间范围 |
数据来源
| 来源 | 许可证 | 贡献内容 |
|---|---|---|
| Discogs Data Dump (2026年4月) | CC0 1.0 | 490万电子音乐发行、142万艺术家、35.3万厂牌、666种风格 |
| Ishkurs Guide to Electronic Music v3 | Open | 166个包含BPM范围的流派分类法、1.1万首曲目、演化图谱 |
计划中的功能增强(v2版本)
- 从 AcousticBrainz 获取 BPM 和调性信息(2950万曲目,CC0许可证)
- 艺术家相似度图谱
- MusicBrainz 交叉引用 ID
- DJ 混音过渡数据
构建工具
使用 VeltriaAI/music-intelligence 构建,这是一个可扩展的源适配器架构,可通过添加 Python 文件来集成新的数据源。
引用格式
bibtex @dataset{electronic_music_knowledge_2026, title={Electronic Music Knowledge}, author={NaturNest AI}, year={2026}, url={https://huggingface.co/datasets/NaturNestAI/electronic-music-knowledge}, license={CC0-1.0} }
搜集汇总
数据集介绍

构建方式
在电子音乐信息检索领域,数据集的构建往往依赖于权威音乐数据库的整合。Electronic Music Knowledge数据集通过融合Discogs数据转储与Ishkur电子音乐指南两大开放资源,构建了覆盖曲目、艺术家、厂牌、流派及其演化关系的多维知识体系。具体而言,利用Discogs提供的CC0许可元数据,提取了约490万电子音乐发行版本、142万艺术家及35万厂牌信息,同时纳入Ishkur指南中带有BPM范围与能量等级的流派分类,并借助可扩展的源适配器架构进行数据清洗与关联,最终形成包含五个独立配置的结构化数据集。
特点
作为当前规模最大的开放电子音乐元数据集合,该数据集的核心特征体现在其全面性与结构化深度。它囊括了超过1830万首曲目记录,并细致划分了832种电子音乐流派,其中166种流派附有典型的节奏范围与能量水平标注。尤为突出的是,数据集创新性地包含了由352条边构成的流派演化图,揭示了不同电子音乐风格之间的历史影响与时间脉络。这种将曲目元数据、艺术家厂牌背景与流派演化图谱相结合的设计,为深入分析电子音乐的文化演变与风格交叉提供了多维度的研究基础。
使用方法
对于从事音乐人工智能或信息检索的研究者而言,该数据集提供了便捷的模块化访问方式。用户可通过Hugging Face Datasets库,分别加载曲目、艺术家、厂牌、流派及流派关系图等独立配置,并利用过滤功能进行针对性查询,例如筛选特定子流派的曲目或追溯某一风格的源流影响。数据集内预计算的搜索查询字段,亦能辅助音乐检索系统的开发。其CC0许可确保了在学术与商业应用中的高度自由,支持从流派分类、推荐系统到音乐文化图谱构建等多种下游任务。
背景与挑战
背景概述
电子音乐知识数据集由NaturNest AI于2026年构建,旨在为音乐人工智能研究提供大规模、结构化的电子音乐元数据资源。该数据集整合了Discogs数据转储与Ishkur电子音乐指南两大权威来源,涵盖了超过1800万首曲目、140万位艺术家及35万张唱片厂牌的详细信息,并构建了包含832种流派的分类体系及其演化图谱。其核心研究问题聚焦于解决电子音乐领域内元数据稀疏、流派演化关系不明确等难题,为音乐信息检索、流派分类及知识图谱构建等任务奠定了坚实基础,显著推动了自主AI DJ系统及智能音乐推荐等领域的发展。
当前挑战
该数据集致力于应对电子音乐领域内流派分类与演化关系建模的复杂性挑战,具体体现为流派边界模糊、子风格交叉融合现象普遍,以及历史演化路径难以准确追溯。在构建过程中,挑战主要源于多源异构数据的整合,包括Discogs与Ishkur指南在流派定义、时间跨度及数据格式上的差异,需通过精细的映射与清洗确保一致性;同时,海量元数据中存在的缺失值、噪声及标注不一致问题,也对数据质量的提升构成了显著障碍。
常用场景
经典使用场景
在电子音乐信息检索领域,该数据集为音乐风格分类任务提供了坚实的支撑。其包含的832种电子音乐流派及其演化图谱,使得研究人员能够构建精细化的分类模型,例如区分浩室、科技舞曲或恍惚音乐等子流派。通过整合Discogs和Ishkur指南的元数据,该数据集支持基于流派、BPM范围或能量水平的特征提取,为自动化音乐组织与推荐系统奠定基础。
衍生相关工作
该数据集衍生了一系列经典研究工作,尤其在音乐人工智能领域。例如,基于其构建的自主AI DJ系统“DJ Treta”展示了自动化混音与曲目选择的可行性。同时,研究者利用其流派图谱开发了电子音乐演化可视化工具,揭示了流派间的历史关联。此外,结合AcousticBrainz等扩展计划,该数据集正促进跨平台音乐特征融合模型的创新。
数据集最近研究
最新研究方向
在音乐信息检索领域,电子音乐知识图谱的构建正成为前沿探索的核心方向。该数据集整合了Discogs与Ishkur指南的丰富元数据,为电子音乐流派演化分析提供了结构化基础。研究者们借助其包含的流派关系图和时间范围数据,深入挖掘音乐风格的起源、交融与变迁轨迹,揭示文化和技术因素如何塑造电子音乐的动态发展。同时,结合BPM范围和能量级别等特征,该数据集也推动了智能DJ系统与个性化音乐推荐算法的进步,使人工智能能够更精准地理解和生成符合场景需求的音乐序列。这些研究不仅深化了对电子音乐文化的认知,也为自动化音乐创作和交互式听觉体验开辟了新的可能性。
以上内容由遇见数据集搜集并总结生成



