five

ADU-Bench|音频对话理解数据集|大型语言模型数据集

收藏
arXiv2024-12-07 更新2024-12-10 收录
音频对话理解
大型语言模型
下载链接:
http://arxiv.org/abs/2412.05167v1
下载链接
链接失效反馈
资源简介:
ADU-Bench是一个用于评估大型音频语言模型(LALMs)在开放式音频对话理解能力的综合基准数据集。该数据集由清华大学、牛津大学和鹏城实验室联合创建,包含20,715条开放式音频对话,涵盖了多种语言和技能领域。数据集的创建过程结合了真实世界录音和合成音频样本,旨在测试LALMs在处理数学符号、理解人类行为、多语言对话以及处理音频对话中的歧义等方面的能力。ADU-Bench的应用领域广泛,旨在解决LALMs在实际应用中遇到的音频对话理解问题,特别是在多语言和多场景下的对话处理。
提供机构:
清华大学, 牛津大学, 鹏城实验室
创建时间:
2024-12-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
ADU-Bench数据集通过整合四个子数据集构建而成,分别为ADU-General、ADU-Skill、ADU-Multilingual和ADU-Ambiguity。ADU-General数据集评估LALMs在日常对话中的理解能力,涵盖帮助性问题、日常问题和日常陈述三种场景。ADU-Skill数据集则专注于技能型对话,涵盖数学、物理、编程等12个领域。ADU-Multilingual数据集测试多语言对话理解能力,覆盖9种语言。ADU-Ambiguity数据集则评估LALMs在处理语音对话中的歧义能力,包括语调、停顿、同音异义词和重复等四种歧义类型。所有数据集均通过GPT-4和人工检查进行筛选和标注,确保数据的多样性和质量。
特点
ADU-Bench数据集的显著特点在于其全面性和多样性。它不仅涵盖了日常对话、技能型对话和多语言对话,还特别关注了语音对话中的歧义处理,如语调、停顿和同音异义词等。此外,数据集包含超过20,000个开放式语音对话,结合了真实录音和合成音频,确保了数据的真实性和多样性。通过这些设计,ADU-Bench能够全面评估LALMs在不同场景下的语音对话理解能力。
使用方法
ADU-Bench数据集的使用方法主要包括以下步骤:首先,LALMs接收用户的语音输入,并生成相应的文本响应或将其音频响应转换为文本格式。然后,通过GPT-4或人工标注生成参考答案(ground truth)。接着,将语音转录文本、参考答案和生成的响应输入到GPT-4评估器中,生成一个0到10的评分,评分越高表示LALMs的响应质量越好。为了消除位置偏差,评估过程中还会交换参考答案和生成响应的位置,并报告平均结果。此外,还引入了其他LLMs(如LLaMA-3-70B-Instruct和Qwen-2-72B-Instruct)进行评估,以确保评估的公正性和准确性。
背景与挑战
背景概述
ADU-Bench数据集由清华大学和牛津大学的研究人员于2024年提出,旨在评估大规模音频-语言模型(LALMs)在开放式音频对话理解中的表现。该数据集包含超过20,000个开放式音频对话,涵盖3个通用场景、12种技能、9种语言以及4类歧义处理。ADU-Bench的提出填补了现有LALMs在开放式音频对话理解评估方面的空白,尤其在处理语音中的歧义(如语调、停顿、同音异义词等)方面具有开创性。该数据集的发布对推动音频对话系统的发展具有重要意义,尤其是在实际应用中,如日常对话、技能对话、多语言对话和歧义处理等领域。
当前挑战
ADU-Bench数据集面临的挑战主要集中在以下几个方面:首先,LALMs在处理数学符号和公式等技能型对话时表现不佳,尤其是在涉及复杂数学表达和编程代码时。其次,LALMs在理解人类行为(如角色扮演)和常识推理方面存在明显不足,缺乏对隐含意义的深入理解。此外,LALMs在处理多语言对话时也面临挑战,尤其是在非印欧语系语言中的表现较差。最后,LALMs在处理音频对话中的歧义时表现不佳,尤其是在语调、停顿和同音异义词等语音元素的处理上。这些挑战表明,现有的LALMs在音频对话理解方面仍有较大的改进空间。
常用场景
经典使用场景
ADU-Bench 数据集的经典使用场景在于评估大型音频-语言模型(LALMs)在开放式音频对话理解中的表现。该数据集通过四个子数据集(ADU-General、ADU-Skill、ADU-Multilingual 和 ADU-Ambiguity)全面评估 LALMs 在不同场景下的对话理解能力,包括日常对话、技能导向对话、多语言对话以及处理语音歧义的能力。通过这些评估,研究者可以深入分析 LALMs 在不同任务中的表现,并为模型的进一步优化提供指导。
解决学术问题
ADU-Bench 数据集解决了当前大型音频-语言模型在开放式音频对话理解中缺乏全面评估基准的问题。通过提供超过 20,000 个开放式音频对话,该数据集帮助研究者识别现有 LALMs 在处理数学符号、编程代码、多语言理解和语音歧义等方面的不足。这不仅推动了 LALMs 在音频对话理解领域的研究进展,还为未来模型的改进提供了明确的方向。
衍生相关工作
ADU-Bench 数据集的提出激发了大量相关研究工作,特别是在音频-语言模型的评估和优化方面。许多研究者基于该数据集开发了新的模型架构和训练方法,以提升 LALMs 在音频对话理解中的表现。此外,ADU-Bench 还推动了对语音歧义处理、多语言理解和技能导向对话等特定任务的深入研究,进一步丰富了音频-语言模型的应用场景和理论基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录