URO-Bench

Name: URO-Bench
Creator: 上海交通大学
Published: 2025-02-25 11:31:48
License: 暂无描述

arXiv2025-02-25 更新2025-02-27 收录

下载链接：

https://huggingface.co/datasets/Honggao/URO-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

URO-Bench是由上海交通大学MoE Key Lab of Artificial Intelligence和X-LANCE Lab提出的一种全面评估端到端语音对话模型的数据集。该数据集包含基础轨道和高级轨道两个难度级别，共有36个测试集，覆盖了语音对话场景中的多语言、多轮对话和副语言等方面，旨在评估模型在理解、推理和口语对话三个维度的能力。

URO-Bench is a comprehensive benchmark dataset for evaluating end-to-end spoken dialogue models, proposed by the MoE Key Lab of Artificial Intelligence and X-LANCE Lab at Shanghai Jiao Tong University. This dataset includes two difficulty levels, namely the Basic Track and the Advanced Track, with a total of 36 test sets. It covers multiple key aspects of spoken dialogue scenarios, including multilingualism, multi-turn dialogue, and paralinguistic cues. The dataset aims to evaluate a model's capabilities across three dimensions: comprehension, reasoning, and spoken dialogue interaction.

提供机构：

上海交通大学

创建时间：

2025-02-25

搜集汇总

数据集介绍

构建方式

URO-Bench 是一个为端到端口语对话模型（SDMs）设计的全面基准测试，旨在评估模型在理解和推理方面的能力。该数据集由两个难度级别组成：基础轨道和专业轨道，分别包含 16 个和 20 个数据集。数据集构建过程中，首先从现有数据集中选择了适合语音对话场景的问题，并使用 GPT-4o 生成特定于任务的数据。然后，使用先进的文本到语音（TTS）系统将所有数据合成为音频。为了确保音频质量，使用自动语音识别（ASR）系统对语音进行转录，并与源文本进行比较，并进行人工审查。

特点

URO-Bench 是首个涵盖多语种、多轮对话和非言语信息的端到端口语对话模型基准测试。它旨在全面评估模型在理解、推理和口语对话方面的能力。数据集分为基础轨道和专业轨道，分别包含 16 个和 20 个数据集，涵盖日常生活建议、常识问答、计算等多种应用场景。专业轨道的测试更具挑战性，包括多轮对话、跨语言对话和非言语信息处理等。

使用方法

URO-Bench 可以通过其官方网站和 Hugging Face 平台获取。使用该数据集时，首先需要将数据集下载到本地，并使用相应的代码库进行评估。评估过程中，可以使用 URO-Bench 提供的自动评估指标进行评估，包括自动评估分数、UTMOS 分数、ASR-WER/CER 分数和首次数据包延迟。此外，还可以使用 URO-Bench 提供的排行榜来比较不同模型的性能。

背景与挑战

背景概述

随着大型语言模型（LLMs）的进步，端到端口语对话模型（SDMs）在近年来取得了显著的进展。与基于文本的LLMs相比，SDMs的评价需要考虑语音相关的方面，例如副语言信息和语音质量。然而，在语音到语音（S2S）场景中，SDMs的综合评价仍然缺乏。为了解决这个问题，上海交通大学的研究人员提出了URO-Bench，这是一个广泛的SDMs基准。URO-Bench是第一个涵盖多语言、多轮对话和副语言的S2S基准。该基准分为两个难度级别：基础赛道和专业赛道，分别包含16个和20个数据集，评估模型在理解、推理和口语对话方面的能力。对URO-Bench的评价表明，当前的SDMs在日常生活问答任务中表现相当好，但在指令遵循能力和灾难性遗忘方面落后于它们的骨干LLMs，并且在副语言信息和音频理解的高级评价中表现不佳，这突出了在这个方向上进行更多研究的必要性。URO-Bench旨在通过提供现有模型的多方面评价，并帮助跟踪该领域的进展，以有效地促进口语对话模型的发展。

当前挑战

URO-Bench基准旨在全面评估端到端口语对话模型。在构建过程中，研究人员面临了以下挑战：1) 创建一个能够全面反映模型在理解、推理和口语对话方面能力的基准；2) 设计包含多语言、多轮对话和副语言信息的测试集；3) 开发能够评估模型语音输出质量和语音文本对齐的指标；4) 构建一个能够模拟真实世界语音对话场景的数据集。这些挑战需要研究人员在数据选择、数据过滤、语音合成、语音文本审查等方面进行细致的工作。此外，URO-Bench基准还面临着一些局限性，例如无法提供自动评估延迟的流程，以及ChatGPT评分可能存在一定的偏差和波动。这些问题需要在未来进行进一步的研究和改进。

常用场景

经典使用场景

URO-Bench 是一个为端到端语音对话模型（SDMs）设计的全面基准，旨在评估模型在语音到语音（S2S）场景下的理解、推理和口语对话能力。它包含了多语言、多轮对话和副语言的评估，是目前首个涵盖这些方面的S2S基准。URO-Bench 包括两个难度级别：基础轨道和专业轨道，分别包含 16 和 20 个数据集，用于评估模型在理解、推理和口语对话方面的能力。

实际应用

URO-Bench 可用于评估和比较不同的端到端语音对话模型，帮助研究人员和开发人员选择最适合特定应用场景的模型。它还可以用于指导模型的训练和优化，以提升模型的性能和鲁棒性。此外，URO-Bench 还可以用于构建更智能、更人性化的语音助手，为用户提供更好的交互体验。

衍生相关工作

URO-Bench 的提出促进了端到端语音对话模型的研究和发展。它不仅为研究人员提供了一个全面的评估工具，还激发了更多关于语音理解和生成、多轮对话、副语言处理等方面的研究。此外，URO-Bench 还促进了相关领域的发展，例如语音识别、语音合成和自然语言处理等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集