five

wikimt-x

收藏
Hugging Face2025-02-12 更新2025-02-13 收录
下载链接:
https://huggingface.co/datasets/sander-wood/wikimt-x
下载链接
链接失效反馈
官方服务:
资源简介:
WikiMT-X是一个包含文本、乐谱和音频录音的多模态音乐基准数据集,共有1000个精心策划的三元组。它用于评估文本到音乐生成、音乐配字、音乐信息检索和音乐分类等多个任务。该数据集在文本注释、乐谱与音频对齐、流派标注等方面进行了显著改进,并支持10种语言的多语言文本检索实验。

WikiMT-X is a multimodal music benchmark dataset comprising text, sheet music, and audio recordings, with 1000 meticulously curated triples in total. It is designed to assess a range of tasks, such as text-to-music generation, music-lyric alignment, music information retrieval and music classification. This dataset has made substantial improvements in multiple aspects including text annotation, sheet music-audio alignment, and genre annotation, and supports multilingual text retrieval experiments across 10 languages.
创建时间:
2025-02-10
原始信息汇总

WikiMT-X: Multimodal Music Benchmark Dataset

许可

  • MIT

任务分类

  • 文本到音频
  • 文本检索
  • 音频分类
  • 文本分类

语言

  • 英语 (en)

标签

  • 音乐

数据规模

  • 1K<n<10K

简介

WikiMT-X 是第一个结合文本、乐谱和音频录音的多模态音乐信息检索基准数据集,包含 1,000 个精心策划的三元组,主要来自 20 世纪西方音乐。该数据集旨在评估文本到音乐生成、音乐字幕、音乐信息检索 (MIR) 和音乐分类等多个模态的性能。

改进点

  • 丰富的文本注释
  • 四种不同的文本视角
  • 对齐的乐谱与音频
  • 精细的流派标注

基准任务

  1. 文本到音乐生成
  2. 音乐字幕
  3. 音乐信息检索 (MIR)
  4. 音乐分类

多语言支持

  • 提供机器翻译文本,支持 10 种语言

数据集概要

  • 1,000 个多模态三元组
  • 适用于多模态音乐信息检索研究

引用

  • 即将到来...
搜集汇总
数据集介绍
main_image_url
构建方式
WikiMT-X数据集的构建采用了精心策划的方式,整合了文本、乐谱和音频录音,形成了1000个三元组。这些三元组主要来源于20世纪的西方音乐,通过手动匹配乐谱和对应的音频记录,并去除重复项,确保了数据集的质量和多样性。
特点
该数据集的特点在于其多模态特性,不仅包含了文本描述,还涵盖了乐谱和音频记录。文本描述从四个不同的视角出发,包括背景、分析、描述和场景,丰富了数据集的内容。此外,数据集还提供了精细化的音乐类型标注,并通过手动重新标注提高了准确性。
使用方法
使用WikiMT-X数据集,研究者可以进行文本到音乐的生成、音乐标注、音乐信息检索以及音乐分类等任务。数据集支持多语言,提供了机器翻译的文本,以便进行多语言文本到音乐检索的实验。用户可以通过HuggingFace平台提供的接口轻松加载和利用这个数据集。
背景与挑战
背景概述
在音乐信息检索(MIR)领域,多模态数据的整合与应用正日益受到重视。WikiMT-X数据集,作为首个融合文本、乐谱和音频记录的多模态MIR基准数据集,由20世纪西方音乐中的1000个精心策划的三元组构成,旨在评估文本到音乐生成、音乐标注、音乐信息检索以及音乐分类等多模态任务。该数据集由多个研究人员和机构共同研发,于近年来推出,迅速成为推动音乐人工智能研究的重要资源。
当前挑战
尽管WikiMT-X数据集在多模态MIR研究领域具有开创性,但其在构建和应用过程中仍面临诸多挑战。首先,数据集在构建时,需要克服如何将乐谱、音频与文本进行精确对齐的难题。其次,数据集的多样性和质量控制也是一大挑战,尤其是在确保文本描述的多样性和准确性方面。此外,跨模态检索和分类任务中,如何有效融合不同模态的信息,以及如何处理多语言支持中的翻译准确性问题,都是当前研究需要解决的挑战。
常用场景
经典使用场景
在音乐人工智能研究领域,wikimt-x数据集被广泛应用于评估文本到音乐生成、音乐标注、音乐信息检索以及音乐分类等任务。其独特之处在于,该数据集结合了文本、乐谱和音频录音,为研究者提供了一个多元化的研究平台,以促进音乐AI技术的进步。
解决学术问题
wikimt-x数据集解决了先前数据集中文本多样性不足、缺乏音频数据以及低质量流派标签等问题。通过引入丰富的文本注释、匹配乐谱与音频、重新构建流派分类并手动重注数据,该数据集为学术研究提供了更准确和全面的音乐分析资源。
衍生相关工作
基于wikimt-x数据集,研究者们已经衍生出一系列相关工作,包括但不限于跨模态音乐信息检索、多语言音乐描述生成以及音乐风格分类研究,这些研究进一步推动了音乐计算和人工智能领域的创新发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作