SpeechR

Name: SpeechR
Creator: 悉尼科技大学、利物浦大学、北京交通大学
Published: 2025-08-04 11:28:04
License: 暂无描述

arXiv2025-08-04 更新2025-08-07 收录

下载链接：

https://github.com/Yanda95/SpeechR

下载链接

链接失效反馈

官方服务：

资源简介：

SpeechR是一个用于评估大型音频语言模型在语音场景中进行推理能力的统一基准。它从精心策划的文本推理任务生成语音数据，允许对语音内容、韵律和结构进行精确控制，同时保留原始任务的心理意图。SpeechR包含三种推理类型：事实推理、程序推理和规范推理，并发布三个版本：选择题版、生成版和声学特征版，以支持广泛的评估需求。

SpeechR is a unified benchmark for evaluating the reasoning capabilities of large audio language models in speech scenarios. It generates speech data from carefully curated textual reasoning tasks, enabling precise control over speech content, prosody and structure while retaining the psychological intent of the original tasks. SpeechR includes three types of reasoning: factual reasoning, procedural reasoning and normative reasoning, and is released in three versions: multiple-choice version, generative version and acoustic feature version, to support a wide range of evaluation requirements.

提供机构：

悉尼科技大学、利物浦大学、北京交通大学

创建时间：

2025-08-04

搜集汇总

数据集介绍

构建方式

SpeechR数据集通过精心设计的流程构建，首先从高质量文本推理数据集中筛选内容，涵盖事实性、程序性和规范性推理三大类型。随后采用Azure Speech SDK进行语音合成，确保音频质量与自然度，并通过多阶段质量控制流程验证文本准确性、音文对齐和音频自然度。数据集特别标注了重音和情感特征，以探究声学特征对推理的影响。

特点

SpeechR作为首个系统评估语音推理能力的基准，具有三大核心特征：涵盖事实检索、程序推理和规范判断的多样化任务类型；提供选择题、生成式和声学特征三个评估版本；严格控制语音的韵律和情感特征。数据集包含3,366个实例，平均语音时长为14秒，采用37种美式英语发音和15种情感风格，为语音推理研究提供了丰富素材。

使用方法

使用SpeechR时，研究者可根据不同评估目标选择相应版本：选择题版本采用离散选项评估协议测量模型准确率；生成式版本通过LLM-as-a-judge框架评估推理链的逻辑相关性和连贯性；声学特征版本则分析韵律变化对推理的影响。评估时需保持输入格式统一，建议同时考察模型在标准语音和情感/重音修饰语音上的表现差异，以全面评估语音推理能力。

背景与挑战

背景概述

SpeechR是由悉尼科技大学、利物浦大学和北京交通大学的研究团队于2025年推出的首个专注于语音推理评估的基准测试。该数据集针对大型音频语言模型（LALMs）在语音场景中的上下文推理能力不足问题，系统性地设计了事实检索、程序推理和规范判断三大评估维度。通过多选、生成式和声学特征三种版本，SpeechR填补了现有语音数据集仅关注表层感知任务的空白，为对话系统、教育工具等语音交互场景提供了更全面的模型能力评估框架。

当前挑战

SpeechR面临的挑战主要体现在两个方面：领域问题方面，需解决语音推理中声学特征与语义理解的多模态对齐难题，以及复杂对话场景下的长程逻辑一致性建模；构建过程方面，需克服文本到语音转换中的语义保真度控制、多语言多文化语境适配，以及情感/重音标注的客观性验证等技术瓶颈。实验表明，即使最先进的LALMs在语音形式的数学推理任务中，准确率仍较文本输入下降超过40%，凸显了声学信号与高阶推理融合的挑战性。

常用场景

经典使用场景

SpeechR数据集在大型音频-语言模型（LALMs）的推理能力评估中具有重要应用。该数据集通过多维度任务设计，包括事实检索、程序推理和规范性判断，为研究者提供了一个统一的评估框架。其多选版本、生成版本和声学特征版本分别针对不同研究需求，使得模型在语音转录、情感识别之外的深层次推理能力得以全面检验。

解决学术问题

SpeechR填补了现有语音数据集在高级推理能力评估上的空白。传统语音数据集如LibriSpeech和Common Voice主要关注语音识别等基础任务，而SpeechR通过精心设计的推理任务，解决了模型在上下文理解、多步推理和道德判断等方面的能力评估问题。这一数据集为语音理解领域的研究提供了新的评估标准，推动了模型在复杂语音场景下的性能提升。

衍生相关工作

SpeechR数据集启发了多项相关研究工作。基于其评估框架，研究者开发了如Audio-CoT（语音思维链推理）和Audio-Reasoner等新型模型架构。同时，该数据集也被用于改进现有模型如GPT-4o和Gemini在多模态推理方面的性能。在数据集层面，SpeechR的设计理念影响了后续MMAR等跨模态推理基准的构建，推动了语音理解领域向更深层次的推理能力发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集