five

URO-Bench

收藏
arXiv2025-02-25 更新2025-02-27 收录
下载链接:
https://huggingface.co/datasets/Honggao/URO-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
URO-Bench是由上海交通大学MoE Key Lab of Artificial Intelligence和X-LANCE Lab提出的一种全面评估端到端语音对话模型的数据集。该数据集包含基础轨道和高级轨道两个难度级别,共有36个测试集,覆盖了语音对话场景中的多语言、多轮对话和副语言等方面,旨在评估模型在理解、推理和口语对话三个维度的能力。

URO-Bench is a comprehensive benchmark dataset for evaluating end-to-end spoken dialogue models, proposed by the MoE Key Lab of Artificial Intelligence and X-LANCE Lab at Shanghai Jiao Tong University. This dataset includes two difficulty levels, namely the Basic Track and the Advanced Track, with a total of 36 test sets. It covers multiple key aspects of spoken dialogue scenarios, including multilingualism, multi-turn dialogue, and paralinguistic cues. The dataset aims to evaluate a model's capabilities across three dimensions: comprehension, reasoning, and spoken dialogue interaction.
提供机构:
上海交通大学
创建时间:
2025-02-25
搜集汇总
数据集介绍
main_image_url
构建方式
URO-Bench 是一个为端到端口语对话模型(SDMs)设计的全面基准测试,旨在评估模型在理解和推理方面的能力。该数据集由两个难度级别组成:基础轨道和专业轨道,分别包含 16 个和 20 个数据集。数据集构建过程中,首先从现有数据集中选择了适合语音对话场景的问题,并使用 GPT-4o 生成特定于任务的数据。然后,使用先进的文本到语音(TTS)系统将所有数据合成为音频。为了确保音频质量,使用自动语音识别(ASR)系统对语音进行转录,并与源文本进行比较,并进行人工审查。
特点
URO-Bench 是首个涵盖多语种、多轮对话和非言语信息的端到端口语对话模型基准测试。它旨在全面评估模型在理解、推理和口语对话方面的能力。数据集分为基础轨道和专业轨道,分别包含 16 个和 20 个数据集,涵盖日常生活建议、常识问答、计算等多种应用场景。专业轨道的测试更具挑战性,包括多轮对话、跨语言对话和非言语信息处理等。
使用方法
URO-Bench 可以通过其官方网站和 Hugging Face 平台获取。使用该数据集时,首先需要将数据集下载到本地,并使用相应的代码库进行评估。评估过程中,可以使用 URO-Bench 提供的自动评估指标进行评估,包括自动评估分数、UTMOS 分数、ASR-WER/CER 分数和首次数据包延迟。此外,还可以使用 URO-Bench 提供的排行榜来比较不同模型的性能。
背景与挑战
背景概述
随着大型语言模型(LLMs)的进步,端到端口语对话模型(SDMs)在近年来取得了显著的进展。与基于文本的LLMs相比,SDMs的评价需要考虑语音相关的方面,例如副语言信息和语音质量。然而,在语音到语音(S2S)场景中,SDMs的综合评价仍然缺乏。为了解决这个问题,上海交通大学的研究人员提出了URO-Bench,这是一个广泛的SDMs基准。URO-Bench是第一个涵盖多语言、多轮对话和副语言的S2S基准。该基准分为两个难度级别:基础赛道和专业赛道,分别包含16个和20个数据集,评估模型在理解、推理和口语对话方面的能力。对URO-Bench的评价表明,当前的SDMs在日常生活问答任务中表现相当好,但在指令遵循能力和灾难性遗忘方面落后于它们的骨干LLMs,并且在副语言信息和音频理解的高级评价中表现不佳,这突出了在这个方向上进行更多研究的必要性。URO-Bench旨在通过提供现有模型的多方面评价,并帮助跟踪该领域的进展,以有效地促进口语对话模型的发展。
当前挑战
URO-Bench基准旨在全面评估端到端口语对话模型。在构建过程中,研究人员面临了以下挑战:1) 创建一个能够全面反映模型在理解、推理和口语对话方面能力的基准;2) 设计包含多语言、多轮对话和副语言信息的测试集;3) 开发能够评估模型语音输出质量和语音文本对齐的指标;4) 构建一个能够模拟真实世界语音对话场景的数据集。这些挑战需要研究人员在数据选择、数据过滤、语音合成、语音文本审查等方面进行细致的工作。此外,URO-Bench基准还面临着一些局限性,例如无法提供自动评估延迟的流程,以及ChatGPT评分可能存在一定的偏差和波动。这些问题需要在未来进行进一步的研究和改进。
常用场景
经典使用场景
URO-Bench 是一个为端到端语音对话模型(SDMs)设计的全面基准,旨在评估模型在语音到语音(S2S)场景下的理解、推理和口语对话能力。它包含了多语言、多轮对话和副语言的评估,是目前首个涵盖这些方面的S2S基准。URO-Bench 包括两个难度级别:基础轨道和专业轨道,分别包含 16 和 20 个数据集,用于评估模型在理解、推理和口语对话方面的能力。
实际应用
URO-Bench 可用于评估和比较不同的端到端语音对话模型,帮助研究人员和开发人员选择最适合特定应用场景的模型。它还可以用于指导模型的训练和优化,以提升模型的性能和鲁棒性。此外,URO-Bench 还可以用于构建更智能、更人性化的语音助手,为用户提供更好的交互体验。
衍生相关工作
URO-Bench 的提出促进了端到端语音对话模型的研究和发展。它不仅为研究人员提供了一个全面的评估工具,还激发了更多关于语音理解和生成、多轮对话、副语言处理等方面的研究。此外,URO-Bench 还促进了相关领域的发展,例如语音识别、语音合成和自然语言处理等。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作