five

ZIQI-Eval|音乐评估数据集|大型语言模型数据集

收藏
arXiv2024-06-23 更新2024-06-26 收录
音乐评估
大型语言模型
下载链接:
https://github.com/zcli-charlie/ZIQI-Eval, https://huggingface.co/datasets/MYTH-Lab/ZIQI-Eval
下载链接
链接失效反馈
资源简介:
ZIQI-Eval是由武汉大学信息管理学院创建的大型音乐评估基准,专为评估大型语言模型(LLMs)的音乐相关能力而设计。该数据集包含14,244个精心策划的数据条目,涵盖10个主要类别和56个子类别,涉及音乐理论、作曲、流派、乐器等多个方面。数据集的创建过程整合了国际音乐文献数据库(RILM)和多种学术资源,确保了数据的广泛性和深度。ZIQI-Eval的应用领域主要集中在评估和提升LLMs在音乐理解和生成方面的能力,旨在解决当前LLMs在音乐领域表现不足的问题。
提供机构:
武汉大学信息管理学院
创建时间:
2024-06-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
ZIQI-Eval数据集的构建方式是综合了多个音乐领域的知识,包括音乐理论、作曲、流派、乐器以及历史背景等方面。数据集包含了来自多个来源的内容,如音乐文献数据库Répertoire International de Littérature Musicale (RILM)、The New Grove Dictionary of Music and Musicians等。数据集分为两部分:音乐理解题库和音乐生成题库。音乐理解题库包含了10个大类和56个子类,共有超过14,000个数据条目。这些题目涵盖了从流行音乐、摇滚音乐、蓝调到女性音乐等各个主题。音乐生成题库包含了200个问题,用于测试音乐续写的技能。
特点
ZIQI-Eval数据集的特点是全面性和多样性。它涵盖了音乐领域的多个方面,包括音乐理论、作曲、流派、乐器以及历史背景等。数据集包含了来自多个来源的内容,如音乐文献数据库Répertoire International de Littérature Musicale (RILM)、The New Grove Dictionary of Music and Musicians等。数据集的设计旨在突出女性音乐作曲家的贡献,纠正了历史文献中存在的性别不平等现象。此外,数据集还采用了多选题的形式,方便进行评估。
使用方法
使用ZIQI-Eval数据集时,可以将音乐知识或乐谱的前半部分作为输入,并提供四个选项,让LLM选择正确的答案并提供有意义的解释。这样可以评估LLM的音乐理解和生成能力。数据集的评估标准包括准确率、精确率、召回率和F1分数。通过这些指标,可以全面评估LLM在音乐领域的表现。
背景与挑战
背景概述
音乐是人类文化的重要组成部分,随着大语言模型(LLMs)在自然语言处理领域的显著进展,评估其音乐能力成为一个日益重要的研究课题。ZIQI-Eval数据集正是为了填补这一空白而创建的。该数据集由武汉大学的李佳佳等人于2024年提出,旨在全面评估LLMs在音乐领域的理解与生成能力。ZIQI-Eval涵盖了广泛的音乐知识,包括音乐理论、作曲、流派、乐器和历史背景等10个主要类别和56个子类别,共计超过14,000个精心策划的数据条目。该数据集的创建不仅为LLMs的音乐能力评估提供了一个标准化的框架,而且通过纳入女性音乐作曲家的内容,纠正了历史文献中存在的性别不平等现象,为音乐学术领域的进步和包容性做出了积极贡献。
当前挑战
尽管ZIQI-Eval为LLMs的音乐能力评估提供了一个全面和大规模的基准,但其结果也揭示了一些挑战。首先,所有LLMs在ZIQI-Eval基准上的表现均不佳,这表明LLMs的音乐理解与生成能力还有很大的提升空间。其次,LLMs的音乐能力存在性别、种族和地区偏见。例如,超过35%的LLMs在音乐能力方面表现出偏见,其中地区偏见最为严重。此外,LLMs在音乐生成方面的能力还有待提高。尽管一些LLMs在音乐理解方面表现出色,但它们的音乐生成能力仍然需要改进。最后,LLMs的指令遵循能力与其音乐能力之间没有直接联系。一些LLMs可能在精度方面得分很高,但它们在有效地理解和生成音乐方面却很困难。
常用场景
经典使用场景
在音乐领域,ZIQI-Eval数据集被广泛用于评估大型语言模型(LLM)的音乐理解能力和生成能力。该数据集包含多个类别和子类别的问题,涵盖了音乐理论、作曲、流派、乐器和历史背景等方面,使得LLM能够接受关于音乐知识的问题并选择正确的答案,或者根据输入的旋律选择最匹配的旋律续写片段。通过这种方式,ZIQI-Eval为研究者提供了一个全面的音乐评估框架,以评估LLM在音乐领域的综合能力。
实际应用
ZIQI-Eval数据集的实际应用场景包括音乐教育、音乐创作和音乐推荐。在教育领域,该数据集可以用于评估学生在音乐方面的知识水平和理解能力,帮助他们更好地学习音乐。在创作领域,LLM可以根据ZIQI-Eval提供的问题和答案,生成新的音乐作品。在推荐领域,LLM可以根据用户对音乐的知识和偏好,推荐他们可能喜欢的音乐。
衍生相关工作
ZIQI-Eval数据集的提出促进了相关领域的研究。例如,研究人员可以基于ZIQI-Eval构建更先进的音乐评估模型,或者探索LLM在音乐领域的其他应用。此外,ZIQI-Eval还引发了关于LLM在音乐领域应用潜力的讨论,为未来的研究方向提供了启示。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录