S2SBench
收藏arXiv2025-05-20 更新2025-05-22 收录
下载链接:
https://github.com/undobug/S2SBench
下载链接
链接失效反馈官方服务:
资源简介:
S2SBench是一个用于量化语音到语音大型语言模型中智能退化程度的数据集。该数据集由华南理工大学和百川智能合作构建,旨在评估模型在音频输入下的推理和生成能力。数据集包含针对句子续写和常识推理的诊断数据集,并引入了一种基于困惑度差异的成对评估协议,以衡量相对于文本输入的退化程度。通过在Baichuan-Audio模型上的应用,S2SBench证明了其有效性。
S2SBench is a dataset designed to quantify the degree of intelligent degradation in speech-to-speech large language models. Co-developed by South China University of Technology and Baichuan Intelligence, this dataset aims to evaluate the reasoning and generation capabilities of models when processing audio inputs. It includes diagnostic datasets for sentence continuation and commonsense reasoning, and introduces a pairwise evaluation protocol based on perplexity difference to measure the degradation degree relative to text inputs. The effectiveness of S2SBench has been verified through its application on the Baichuan-Audio model.
提供机构:
华南理工大学, 百川智能
创建时间:
2025-05-20
原始信息汇总
S2SBench数据集概述
数据集简介
- 目的:评估语音到语音大语言模型的智能退化情况
- 论文链接:https://arxiv.org/abs/2505.14438
- 下载地址:https://huggingface.co/datasets/undobug/S2SBench
数据集构成
包含三个评估集:
-
sStoryCloze
- 语言:英语
- 任务类型:基于语音的故事完形填空
- 样本对数:3742
- 每对正样本数:1
- 每对负样本数:1
-
zh-sStoryCloze
- 语言:中文
- 任务类型:基于语音的故事完形填空
- 样本对数:3742
- 每对正样本数:1
- 每对负样本数:1
-
sCMMLU
- 任务类型:基于语音的多学科选择题(CMMLU语音版)
- 样本对数:4743
- 每对正样本数:1
- 每对负样本数:3
模型评估方法
语音到文本评估
sh cd s2t bash bash.sh
文本到文本评估
sh cd t2t bash bash.sh
评估脚本示例
s2t/bash.sh脚本示例:
bash
python s2t_infer_ppl.py --dataset_list sStory_s2t zh_story cmmlu_write_4 --plot
搜集汇总
数据集介绍

构建方式
S2SBench数据集的构建过程体现了对语音大语言模型智能退化现象的系统性研究。研究团队通过精心设计两种核心任务——句子延续和常识推理,构建了跨模态对比评估体系。针对句子延续任务,采用sStoryCloze英文数据集并开发了中文版本zh-sStoryCloze,通过机器翻译和本土化处理确保文化适应性;在常识推理方面,基于CMMLU数据集重构出包含4,743个问题的sCMMLU,利用GPT-4o API将选择题改写为具有相同前半句的陈述句变体。每个样本均包含文本和音频双模态版本,为对比分析提供了坚实基础。
特点
该数据集最显著的特征在于其创新的双模态评估框架和细粒度的退化量化机制。通过设计正负样本对(plausible/implausible pairs)的对比评估范式,采用困惑度差异作为核心指标,能够精确捕捉语音输入导致的性能衰减。数据集涵盖中英双语场景,包含故事延续和常识推理两大认知维度,既评估语言连贯性又检验知识储备。特别构建的zh-sStoryCloze中文子集填补了汉语语境下的评估空白,而重构的sCMMLU则通过陈述句改写强化了语义区分度。这种多维度、跨语言的评估体系为全面诊断语音LLM的智能退化提供了立体视角。
使用方法
使用该数据集时需遵循严格的对比实验协议。研究者需在保持模型架构一致的前提下,分别输入文本token和音频token进行平行测试。评估流程要求模型对正负样本对生成困惑度评分,通过计算正样本获得更低困惑度的比例作为准确率指标。具体实施时,音频输入需经tokenizer离散化处理,而文本输入保持原始tokenization流程。建议采用两阶段训练策略验证集效果:首阶段冻结语言模型参数仅训练音频模块,次阶段解冻参数进行联合微调。数据集提供的评估代码可自动计算模态间性能差距,并生成训练过程中的能力演化可视化图表。
背景与挑战
背景概述
S2SBench是由华南理工大学与百川智能合作开发的一个基准测试数据集,旨在量化语音大语言模型(Speech LLMs)在处理音频输入时的智能退化现象。该数据集于2025年提出,核心研究问题聚焦于端到端语音大语言模型在直接处理音频输入时,相较于文本输入所表现出的推理和生成性能下降。S2SBench通过构建包含句子延续和常识推理任务的诊断数据集,为研究者提供了一个系统评估模型性能退化的工具。该数据集的推出填补了语音大语言模型智能退化系统性评估的空白,对推动语音与语言模型融合领域的研究具有重要意义。
当前挑战
S2SBench面临的挑战主要包括两个方面:在领域问题层面,语音大语言模型在处理音频输入时存在语义密度低、序列长度长以及韵律和说话人特征引入的变异性等问题,这些问题导致模型构建连贯内部表示的能力下降;在构建过程层面,数据集需要确保文本和音频模态样本的内容一致性,同时设计合理的评估协议来准确量化模型性能退化。此外,如何有效区分语音理解与生成能力的退化,以及建立跨语言的评估标准,也是构建过程中需要解决的关键挑战。
常用场景
经典使用场景
S2SBench作为量化语音大语言模型智能退化的基准工具,其经典使用场景聚焦于跨模态推理能力的系统性评估。该数据集通过构建包含句子续写和常识推理任务的诊断性测试集,支持研究者对比模型在纯文本输入与语音输入条件下的性能差异。在语音交互技术快速发展的背景下,该数据集为分析音频令牌对语义理解的影响提供了标准化实验框架,尤其适用于评估模型在语音到文本转换过程中产生的信息损失问题。
衍生相关工作
该数据集催生了多项重要研究工作:基于其评估协议,GLM-4Voice改进了语音与文本令牌的交错生成策略;Moshi模型受其启发开发了并行多流架构以降低模态转换损失。此外,其提出的zh-sStoryCloze中文评估集推动了跨语言语音理解研究,相关成果被扩展应用于CMMLU等常识推理基准的语音化改造。
数据集最近研究
最新研究方向
随着端到端语音大语言模型(E2E Speech LLMs)的快速发展,其在语音理解和生成任务中的性能退化问题日益凸显。S2SBench作为首个系统量化语音模态下智能退化的基准测试框架,聚焦于句子延续和常识推理两大核心能力评估,通过对比文本与语音输入条件下的模型表现差异,揭示了音频令牌在语义密度、序列长度和韵律变异等方面的固有挑战。当前研究热点集中于多阶段训练策略优化、跨模态对齐增强以及端到端评估协议设计,特别是针对语音-语音(S→S)交互场景的标准化评测体系构建,已成为推动语音大模型实用化进程的关键突破口。该数据集的建立为模型架构改进提供了可量化的诊断工具,对实现类GPT-4o级别的实时语音交互系统具有重要指导意义。
相关研究论文
- 1S2SBench: A Benchmark for Quantifying Intelligence Degradation in Speech-to-Speech Large Language Models华南理工大学, 百川智能 · 2025年
以上内容由遇见数据集搜集并总结生成



