five

M4-RAG|音乐信息检索数据集|多模态数据数据集

收藏
arXiv2025-02-15 更新2025-02-18 收录
音乐信息检索
多模态数据
下载链接:
https://sanderwood.github.io/clamp3
下载链接
链接失效反馈
资源简介:
M4-RAG是一个大规模的多模态音乐文本数据集,由2.31百万条音乐文本对组成,涵盖了27种语言和194个国家的音乐传统。该数据集通过丰富的元数据,包括音乐标题、艺术家名称、流派列表、关键词、背景信息、音乐分析、描述和场景描述等,为音乐信息检索任务提供了全面的训练数据。
提供机构:
未知
创建时间:
2025-02-15
AI搜集汇总
数据集介绍
main_image_url
构建方式
M4-RAG 数据集的构建采用了一种创新的方法,结合了 Retrieval-Augmented Generation (RAG) 技术。该数据集由 2.31 百万对音乐和文本组成,覆盖了各种音乐模态,包括乐谱、表演信号和音频录音。构建过程中,首先从基本元数据,如歌曲标题和艺术家姓名,进行网络搜索,以获取相关文档。然后,利用大型语言模型 (LLM) 生成详细的注释,包括短标签、长描述和多语言翻译,从而丰富了数据集的信息。此外,为了提高数据集的质量和多样性,对元数据进行过滤和后处理,以确保信息的准确性和一致性。
特点
M4-RAG 数据集具有以下特点:1) 规模庞大,包含 2.31 百万对音乐和文本,覆盖 27 种语言和 194 个国家,为音乐和语言任务提供了高质量的训练数据;2) 多样性丰富,包括乐谱、表演信号、音频录音和多语言文本,为跨模态和跨语言的音乐信息检索提供了广泛的数据支持;3) 注释详尽,不仅包括短标签,还有长描述和多语言翻译,为音乐分析和理解提供了深入的语义信息。
使用方法
M4-RAG 数据集可用于多种音乐信息检索任务,如文本到音频和文本到符号音乐的检索。使用该数据集时,首先需要将音乐和文本模态分别编码,然后通过对比学习将它们对齐到一个共享的表示空间中。这样可以实现跨模态检索,即通过文本作为桥梁来检索不同模态的音乐内容。此外,该数据集还可以用于评估模型在处理不同音乐模态和语义方面的能力,从而推动音乐信息检索领域的发展。
背景与挑战
背景概述
音乐信息检索(MIR)领域旨在开发用于处理、组织和访问音乐数据的计算工具。M4-RAG数据集的创建是为了解决跨模态和跨语言泛化在音乐信息检索中的挑战。该数据集由2.31百万音乐-文本对组成,涵盖了广泛的全球音乐传统。CLaMP 3框架使用对比学习将所有主要音乐模态(包括乐谱、表演信号和音频录音)与多语言文本对齐,从而在共享表示空间中实现跨未对齐模态的检索。该框架的特点是一个适应未见语言的跨语言文本编码器,表现出强大的跨语言泛化能力。为了推进未来的研究,我们发布了WikiMT-X基准,包括1,000个乐谱、音频和丰富多样的文本描述的三元组。实验表明,CLaMP 3在多个MIR任务上实现了最先进的性能,显著超过了之前的强基线,并在多模态和多语言音乐环境中表现出色。
当前挑战
M4-RAG数据集和相关框架面临的挑战包括:1) 跨模态检索的挑战:如何有效地将不同音乐模态(乐谱、表演信号和音频录音)与文本对齐,以便进行跨模态检索;2) 跨语言检索的挑战:如何处理和理解和音乐相关的多种语言描述,以建立全球可访问的MIR系统;3) 数据稀缺的挑战:如何解决音乐-文本对和不同音乐模态配对数据的缺乏,以促进更广泛和深入的音乐理解;4) 语义深度不足的挑战:如何克服现有文本数据(如标签)的语义深度不足,以提高音乐检索的准确性;5) 多语言多样性不足的挑战:如何处理音乐文本数据中其他语言的有限代表性,以支持更广泛的跨文化音乐研究。
常用场景
经典使用场景
M4-RAG数据集广泛应用于音乐信息检索领域,尤其是在跨模态和跨语言检索方面。该数据集包含2.31百万音乐-文本对,涵盖了多种音乐模态和27种语言,为音乐信息检索任务提供了丰富的训练数据。研究人员可以利用M4-RAG数据集进行音乐分类、音乐生成、音乐情感分析等任务,同时评估模型在不同音乐模态和语言上的性能。
实际应用
M4-RAG数据集的实际应用场景包括但不限于:1) 音乐搜索和推荐系统,帮助用户根据文本描述找到他们想要的音乐;2) 音乐生成,根据文本描述生成新的音乐作品;3) 音乐教育,帮助学生学习音乐理论和分析;4) 音乐情感分析,分析音乐的情感色彩和情绪表达。此外,M4-RAG数据集的跨模态和跨语言特性使得它可以应用于全球范围内的音乐信息检索任务,为音乐爱好者、研究人员和音乐产业提供便利。
衍生相关工作
M4-RAG数据集的发布推动了音乐信息检索领域的进一步发展,衍生出许多相关的研究工作。例如,基于M4-RAG数据集,研究人员开发了CLaMP 3框架,该框架通过对比学习将音乐和文本对齐到一个共享的表示空间中,实现了跨模态和跨语言的检索。此外,M4-RAG数据集还促进了音乐生成、音乐情感分析等任务的研究,为音乐信息检索领域提供了新的研究方向和思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录