ZIQI-Eval

Name: ZIQI-Eval
Creator: 武汉大学信息管理学院
Published: 2024-06-23 00:24:42
License: 暂无描述

arXiv2024-06-23 更新2024-06-26 收录

下载链接：

https://github.com/zcli-charlie/ZIQI-Eval, https://huggingface.co/datasets/MYTH-Lab/ZIQI-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

ZIQI-Eval是由武汉大学信息管理学院创建的大型音乐评估基准，专为评估大型语言模型（LLMs）的音乐相关能力而设计。该数据集包含14,244个精心策划的数据条目，涵盖10个主要类别和56个子类别，涉及音乐理论、作曲、流派、乐器等多个方面。数据集的创建过程整合了国际音乐文献数据库（RILM）和多种学术资源，确保了数据的广泛性和深度。ZIQI-Eval的应用领域主要集中在评估和提升LLMs在音乐理解和生成方面的能力，旨在解决当前LLMs在音乐领域表现不足的问题。

ZIQI-Eval is a large-scale music evaluation benchmark developed by the School of Information Management of Wuhan University, specifically designed for evaluating the music-related capabilities of large language models (LLMs). This dataset contains 14,244 meticulously curated data entries, covering 10 main categories and 56 subcategories, spanning multiple domains such as music theory, composition, musical genres, and instruments. The creation of ZIQI-Eval integrates resources from the International Music Literature Database (RILM) and various academic sources to ensure the breadth and depth of the dataset. The primary application areas of ZIQI-Eval focus on evaluating and enhancing the music understanding and generation capabilities of LLMs, aiming to address the current underperformance of LLMs in the music domain.

提供机构：

武汉大学信息管理学院

创建时间：

2024-06-23

搜集汇总

数据集介绍

构建方式

ZIQI-Eval数据集的构建方式是综合了多个音乐领域的知识，包括音乐理论、作曲、流派、乐器以及历史背景等方面。数据集包含了来自多个来源的内容，如音乐文献数据库Répertoire International de Littérature Musicale (RILM)、The New Grove Dictionary of Music and Musicians等。数据集分为两部分：音乐理解题库和音乐生成题库。音乐理解题库包含了10个大类和56个子类，共有超过14,000个数据条目。这些题目涵盖了从流行音乐、摇滚音乐、蓝调到女性音乐等各个主题。音乐生成题库包含了200个问题，用于测试音乐续写的技能。

特点

ZIQI-Eval数据集的特点是全面性和多样性。它涵盖了音乐领域的多个方面，包括音乐理论、作曲、流派、乐器以及历史背景等。数据集包含了来自多个来源的内容，如音乐文献数据库Répertoire International de Littérature Musicale (RILM)、The New Grove Dictionary of Music and Musicians等。数据集的设计旨在突出女性音乐作曲家的贡献，纠正了历史文献中存在的性别不平等现象。此外，数据集还采用了多选题的形式，方便进行评估。

使用方法

使用ZIQI-Eval数据集时，可以将音乐知识或乐谱的前半部分作为输入，并提供四个选项，让LLM选择正确的答案并提供有意义的解释。这样可以评估LLM的音乐理解和生成能力。数据集的评估标准包括准确率、精确率、召回率和F1分数。通过这些指标，可以全面评估LLM在音乐领域的表现。

背景与挑战

背景概述

音乐是人类文化的重要组成部分，随着大语言模型（LLMs）在自然语言处理领域的显著进展，评估其音乐能力成为一个日益重要的研究课题。ZIQI-Eval数据集正是为了填补这一空白而创建的。该数据集由武汉大学的李佳佳等人于2024年提出，旨在全面评估LLMs在音乐领域的理解与生成能力。ZIQI-Eval涵盖了广泛的音乐知识，包括音乐理论、作曲、流派、乐器和历史背景等10个主要类别和56个子类别，共计超过14,000个精心策划的数据条目。该数据集的创建不仅为LLMs的音乐能力评估提供了一个标准化的框架，而且通过纳入女性音乐作曲家的内容，纠正了历史文献中存在的性别不平等现象，为音乐学术领域的进步和包容性做出了积极贡献。

当前挑战

尽管ZIQI-Eval为LLMs的音乐能力评估提供了一个全面和大规模的基准，但其结果也揭示了一些挑战。首先，所有LLMs在ZIQI-Eval基准上的表现均不佳，这表明LLMs的音乐理解与生成能力还有很大的提升空间。其次，LLMs的音乐能力存在性别、种族和地区偏见。例如，超过35%的LLMs在音乐能力方面表现出偏见，其中地区偏见最为严重。此外，LLMs在音乐生成方面的能力还有待提高。尽管一些LLMs在音乐理解方面表现出色，但它们的音乐生成能力仍然需要改进。最后，LLMs的指令遵循能力与其音乐能力之间没有直接联系。一些LLMs可能在精度方面得分很高，但它们在有效地理解和生成音乐方面却很困难。

常用场景

经典使用场景

在音乐领域，ZIQI-Eval数据集被广泛用于评估大型语言模型（LLM）的音乐理解能力和生成能力。该数据集包含多个类别和子类别的问题，涵盖了音乐理论、作曲、流派、乐器和历史背景等方面，使得LLM能够接受关于音乐知识的问题并选择正确的答案，或者根据输入的旋律选择最匹配的旋律续写片段。通过这种方式，ZIQI-Eval为研究者提供了一个全面的音乐评估框架，以评估LLM在音乐领域的综合能力。

实际应用

ZIQI-Eval数据集的实际应用场景包括音乐教育、音乐创作和音乐推荐。在教育领域，该数据集可以用于评估学生在音乐方面的知识水平和理解能力，帮助他们更好地学习音乐。在创作领域，LLM可以根据ZIQI-Eval提供的问题和答案，生成新的音乐作品。在推荐领域，LLM可以根据用户对音乐的知识和偏好，推荐他们可能喜欢的音乐。

衍生相关工作

ZIQI-Eval数据集的提出促进了相关领域的研究。例如，研究人员可以基于ZIQI-Eval构建更先进的音乐评估模型，或者探索LLM在音乐领域的其他应用。此外，ZIQI-Eval还引发了关于LLM在音乐领域应用潜力的讨论，为未来的研究方向提供了启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集