laion-tunes-rpg-music
收藏Hugging Face2026-03-07 更新2026-03-08 收录
下载链接:
https://huggingface.co/datasets/laion/laion-tunes-rpg-music
下载链接
链接失效反馈官方服务:
资源简介:
LAION-Tunes RPG Music 是一个精选的数据集,包含 2,580 首器乐音轨,使用 Gemini 3 Flash Preview 标注了 RPG 游戏情境。每首音轨都经过完整音频分析,并标记了 18 种 RPG 流派的相关游戏情境、情感标签和人声检测。数据集还包括预构建的 FAISS 搜索索引、FastAPI 服务器和 Web UI,支持基于情境的音乐即时搜索(例如,“潜行通过黑暗地牢”会返回符合该氛围的音轨)。数据集适用于音频分类和文本到音频任务,涵盖多种 RPG 流派和情感标签。数据规模为 1K<n<10K,语言为英语,许可证为 CC-BY-4.0。
提供机构:
LAION eV
创建时间:
2026-03-07
原始信息汇总
LAION-Tunes RPG Music 数据集概述
数据集基本信息
- 数据集名称: LAION-Tunes RPG Music — Situation-Aware Instrumental Music Search
- 发布者: LAION
- 许可证: CC-BY-4.0
- 任务类别: 音频分类、文本到音频
- 主要语言: 英语
- 标签: 音乐、RPG、器乐、游戏音频、情境搜索、FAISS、嵌入、Gemini
- 数据规模: 1K<n<10K
数据内容与规模
- 总音轨数: 2,580
- 音频来源: LAION-Tunes 器乐子集(Suno: 1,489 / Udio: 1,091)
- 时长范围: 2秒 – 300秒(≤5分钟过滤)
- 平均时长: 183.4秒(约3分钟)
- 总音频时长: 131.4小时
- 纯器乐音轨(无人声): 2,075 (80.4%)
- 含演唱音轨: 505 (19.6%)
- RPG流派数量: 18
- 每个流派的情境标注音轨数: 1,424 – 2,580
- 总情境向量数: 39,605
核心特征
- 情境标注: 使用 Gemini 3 Flash Preview 对完整音频进行分析,为每个音轨标注了与18种RPG流派相关的游戏情境。
- 情感标签: 每个音轨标注了唤起的情感/情绪标签。
- 人声检测: 基于完整音频检测音轨是否包含演唱。
18种RPG流派
| 流派 | 音轨数 | 示例情境 |
|---|---|---|
| 高幻想 | 2,482 | 史诗王座厅、遭遇巨龙、魔法森林 |
| 低/粗粝幻想 | 2,206 | 酒馆谈判、泥泞战场、政治阴谋 |
| 黑暗幻想 | 1,948 | 被诅咒的废墟、血祭仪式、闹鬼沼泽 |
| 神话/古代世界 | 2,185 | 寺庙仪式、角斗场、神谕幻象 |
| 中世纪历史 | 2,152 | 城堡围攻、集市日、修道院圣歌 |
| 文艺复兴/海盗时代 | 2,275 | 海战、化装舞会、港口小镇 |
| 西部荒野 | 1,705 | 正午对峙、沙龙扑克、沙漠追逐 |
| 哥特式恐怖 | 1,697 | 吸血鬼庄园、雾蒙蒙的墓地、降神会 |
| 宇宙恐怖 | 1,424 | 远古启示、理智侵蚀、虚空遭遇 |
| 现代超自然 | 2,578 | 都市仪式、隐藏的巫团、超自然调查 |
| 现代现实主义 | 2,303 | 抢劫计划、汽车追逐、审讯室 |
| 超级英雄 | 2,492 | 起源故事、反派独白、城市毁灭 |
| 后末日 | 2,389 | 废土拾荒、幸存者营地、辐射风暴 |
| 赛博朋克 | 2,162 | 霓虹灯追逐、黑客序列、大公司渗透 |
| 硬科幻 | 1,882 | 零重力舱外活动、飞船故障、第一次接触 |
| 太空歌剧 | 2,570 | 舰队战斗、外星人酒吧、超空间跳跃 |
| 科学幻想 | 2,580 | 奥术科技、太空神殿、科技魔法决斗 |
| 架空历史 | 2,575 | 蒸汽朋克工坊、时间线断裂、平行世界 |
标注模式
每个音轨的标注输出为结构化JSON,包含以下字段:
has_singing: "yes" 或 "no"。evoked_emotions: 情感/情绪标签列表。genre_situations: 针对18种RPG流派,列出该音轨适合作为背景音乐的具体游戏情境列表。不匹配的流派对应空列表[]。
包含的文件与工具
- 主要数据文件:
rpg_annotated.parquet(完整元数据与标注,2,580行) - 原始标注文件:
annotations_full_progress.json(每个音轨的原始Gemini API响应) - 搜索索引目录 (
indices/):rpg_metadata.db: SQLite数据库(18.6 MB)- 18个按流派的FAISS索引文件(如
faiss_high_fantasy.index) - 组合索引:
faiss_all_genres.index(39,605 向量) - 情感索引:
faiss_emotions.index(2,580 向量) - 字幕索引:
faiss_caption.index(2,580 向量) - BM25关键词索引:
bm25_situations.pkl,bm25_emotions.pkl,bm25_captions.pkl
- 搜索服务器:
rpg_server.py(FastAPI服务器) - 网页界面:
rpg_index.html(紫色主题RPG搜索界面) - 标注脚本:
annotate_gemini.py
搜索功能
- 搜索模式:
- 情境(向量): 语义搜索,使用EmbeddingGemma模型。
- 情感(向量): 基于情感标签的语义搜索。
- 字幕(向量): 基于Music-Whisper字幕的语义搜索。
- 音频上传: 使用Music-Whisper编码器进行音频相似性搜索。
- 情境(关键词): 使用BM25进行情境描述关键词匹配。
- 情感(关键词): 使用BM25进行情感标签关键词匹配。
- 字幕(关键词): 使用BM25进行字幕关键词匹配。
- 负向提示: 支持通过惩罚与负向描述匹配的音轨来进行交叉空间重排序。
- API接口: 提供
/api/search,/api/search_by_audio,/api/search_similar等端点,支持流派过滤、演唱过滤、美学评分过滤等参数。
技术架构
- 嵌入模型: EmbeddingGemma 300M (768维,ONNX量化版本),用于生成文本嵌入向量。
- 索引结构: 使用FAISS构建向量索引(
IndexFlatIP,内积即余弦相似度),并辅以BM25关键词索引。 - 服务器: 基于FastAPI,提供RESTful API和Web UI。
使用要求
- 内存需求(不含Whisper): ~610 MB
- 内存需求(含Whisper): ~2.1 GB
- BM25仅模式内存需求: ~28 MB
- 核心依赖: fastapi, uvicorn, faiss-cpu, numpy, scipy, sentence-transformers, onnxruntime, pandas
音频文件
- 音频文件不包含在此数据集中。
- 元数据中的
audio_url字段包含来自原始LAION-Tunes集合(Suno和Udio子集)的流媒体URL。 - 搜索服务器 (
rpg_server.py) 直接向浏览器音频播放器提供这些URL。
引用
bibtex @misc{laion-tunes-rpg, title={LAION-Tunes RPG Music: Situation-Aware Instrumental Music Search}, author={LAION}, year={2026}, url={https://huggingface.co/datasets/laion/laion-tunes-rpg-music} }
搜集汇总
数据集介绍
构建方式
在游戏音频与情境感知音乐检索的交叉领域,该数据集通过系统化流程构建而成。其核心是从LAION-Tunes数据集中筛选出2,580首纯器乐或含少量人声的曲目,并利用Gemini 3 Flash Preview模型进行深度语义标注。标注过程中,模型接收完整音频波形,并依据涵盖18种角色扮演游戏(RPG)流派的详细提示词,为每首曲目生成结构化标注,包括人声检测、情感标签以及适配于各流派的游戏情境描述。最终,标注结果被整合为Parquet格式的元数据,并构建了多模态检索索引。
特点
本数据集的核心特征在于其精细的情境化标注与多模态检索架构。它不仅为每首音乐标注了情感色彩与人声存在性,更独创性地将音乐与18种RPG流派下的具体游戏场景(如“潜行于黑暗地牢”、“史诗王座厅”)进行关联,生成了超过39,605个情境向量。数据集提供了预构建的FAISS向量索引与BM25关键词索引,支持基于语义相似度与稀疏检索的双重搜索模式,并配备了完整的FastAPI服务与交互式网页界面,实现了从自然语言查询到情境匹配音乐的端到端检索体验。
使用方法
使用者可通过克隆代码库并安装依赖,快速启动本地搜索服务器。系统提供丰富的应用程序接口,支持通过文本查询、音频上传或曲目ID进行多维度检索。用户可指定目标游戏流派、情感倾向,并运用负向提示词排除不希望的风格。对于资源受限的环境,轻量级的BM25索引方案无需加载大型嵌入模型,仅依赖基础数值计算库即可实现高效的关键词匹配,为嵌入式设备或低配置服务器提供了可行的部署路径。
背景与挑战
背景概述
在人工智能与创意计算交叉领域,情境感知的音乐检索正成为游戏音频设计与生成式人工智能应用的前沿课题。LAION-Tunes RPG Music数据集由LAION研究团队于2026年构建,旨在解决角色扮演游戏(RPG)中动态背景音乐与复杂游戏情境精准匹配的核心问题。该数据集从LAION-Tunes器乐子集中精选2,580条音轨,借助Gemini 3 Flash Preview大语言模型,为每条音轨标注涵盖18种RPG流派的游戏情境、情感标签与人声检测信息,并集成FAISS索引与多模态搜索架构。其创新性在于将传统音乐分类扩展至语义驱动的场景化检索,为游戏开发、沉浸式媒体及自动配乐系统提供了结构化、可扩展的基准资源,推动了音频理解模型从特征识别向情境推理的范式转变。
当前挑战
该数据集致力于攻克游戏音频领域中情境适配性音乐检索的长期难题,其核心挑战在于如何跨越低层声学特征与高层语义情境之间的语义鸿沟。具体而言,构建过程面临多维度挑战:首先,情境标注需处理音频内容与开放式文本描述之间的多模态对齐问题,依赖大语言模型对非结构化游戏情境进行细粒度解析与泛化,存在标注一致性与语义偏差风险;其次,数据构建需平衡18种RPG流派的覆盖广度与情境标注的深度,确保跨流派情境分布的均衡性与实用性;再者,检索系统需融合向量搜索与关键词匹配的双重机制,以兼顾语义相似性计算与低资源环境下的部署效率,这对索引架构设计与跨模态嵌入空间对齐提出了较高要求。
常用场景
经典使用场景
在游戏音频设计与多媒体内容创作领域,LAION-Tunes RPG Music数据集为情境感知的背景音乐检索提供了经典范例。研究者与开发者通过自然语言查询,如“潜行于幽暗地牢”或“史诗王座厅场景”,即可基于嵌入向量与FAISS索引高效匹配契合特定角色扮演游戏氛围的器乐曲目。该流程深度融合了语义理解与音频特征分析,实现了从文本描述到音乐片段的精准映射,极大优化了游戏开发中动态配乐的选取效率。
实际应用
在实际应用中,该数据集已集成于配备FastAPI服务器与网页界面的即用型系统,支持游戏开发者、独立制片人及多媒体艺术家快速检索适配特定叙事场景的背景音乐。用户可通过上传音频样本进行相似性搜索,或利用负向提示排除不匹配风格,显著提升了影视配乐、游戏原型开发及互动媒体项目中的音频素材遴选效率。其轻量级BM25索引方案更使得资源受限设备也能实现高效关键字检索。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于跨模态检索架构的优化与领域适应性扩展。研究者借鉴其情境标注范式,开发了针对其他游戏类型(如开放世界冒险、科幻策略)的专用音乐数据集。同时,其结合FAISS与ONNX量化嵌入模型的轻量级部署方案,为边缘计算环境下的音频检索系统提供了参考框架,进一步催生了基于类似结构的实时交互式音乐生成与动态配乐系统的研究探索。
以上内容由遇见数据集搜集并总结生成



