S2SBench

github2025-05-21 更新2025-05-26 收录

下载链接：

https://github.com/undobug/S2SBench

下载链接

链接失效反馈

官方服务：

资源简介：

S2SBench是一个用于评估语音到语音大型语言模型智能退化的基准测试，包括三个评估集：sStoryCloze（英语语音故事填空任务）、zh-sStoryCloze（中文语音故事填空任务）和sCMMLU（涵盖多个学科的选择题语音版本）。

S2SBench is a benchmark for evaluating the intelligence degradation of speech-to-speech Large Language Models (LLMs). It includes three evaluation sets: sStoryCloze (an English speech-based story cloze task), zh-sStoryCloze (a Chinese speech-based story cloze task), and sCMMLU (a spoken version of multi-discipline multiple-choice questions).

创建时间：

2025-05-21

原始信息汇总

S2SBench数据集概述

数据集简介

S2SBench是一个用于评估语音到语音大语言模型智能退化的基准测试工具。

数据集组成

包含三个评估集：

sStoryCloze：英语语音故事完形填空任务
zh-sStoryCloze：中文语音故事完形填空任务
sCMMLU：基于语音的CMMLU版本，涵盖多个学科的选择题

数据集统计

数据集	样本对数	每对正样本数	每对负样本数
sStoryCloze	3742	1	1
zh-sStoryCloze	3742	1	1
sCMMLU	4743	1	3

评估方法

提供两种评估模式：

语音到文本评估

执行命令： sh cd s2t bash bash.sh

文本到文本评估

执行命令： sh cd t2t bash bash.sh

脚本示例

s2t/bash.sh脚本示例： bash python s2t_infer_ppl.py --dataset_list sStory_s2t zh_story cmmlu_write_4 --plot

相关资源

论文链接：https://arxiv.org/abs/2505.14438
数据集下载：https://huggingface.co/datasets/undobug/S2SBench

搜集汇总

数据集介绍

构建方式

S2SBench数据集的构建立足于评估语音到语音大语言模型智能退化的需求，通过精心设计三个评估子集实现全面测评。sStoryCloze和zh-sStoryCloze分别基于英文和中文的语音故事完形填空任务构建，每个样本包含1个正例和1个负例；sCMMLU则扩展为语音版的多学科选择题测评框架，每个样本设置1个正例和3个负例。数据采集过程严格遵循语言学规范，确保语音样本的多样性和文本标注的准确性。

特点

该数据集最显著的特点是实现了跨语言、多任务的测评体系架构。英语和中文双版本的story cloze任务形成语言对比研究基础，而sCMMLU模块涵盖广泛学科领域，有效检验模型的知识广度。数据样本经过平衡设计，正负例比例根据任务特性差异化配置，3742对故事完形填空样本与4743组多学科选择题构成具有统计显著性的测评规模。语音数据采用标准化编码格式，保证不同研究团队的可复现性。

使用方法

研究者可通过两种模态开展评估工作：语音到文本模式需运行s2t目录下的bash.sh脚本，调用s2t_infer_ppl.py实现概率计算与可视化；文本到文本模式则对应t2t目录的同类操作。评估脚本支持灵活的参数配置，--dataset_list可指定测评子集，--plot参数自动生成性能曲线。这种模块化设计允许研究者根据计算资源选择局部测评或完整基准测试，输出结果包含模型在各任务上的量化指标。

背景与挑战

背景概述

S2SBench作为一项专注于评估语音到语音大语言模型智能退化现象的基准测试工具，由研究团队于2024年5月通过arXiv平台正式发布。该数据集源自对多模态人工智能系统在语音转换过程中语义保真度的深度关切，核心研究聚焦于跨语言场景下语音大模型的认知一致性评估。其创新性地构建了包含中英文故事完形填空（sStoryCloze）及多学科选择题（sCMMLU）的双语测评体系，通过3742组英文样本、3742组中文样本以及4743组跨学科样本的系统性设计，为语音大模型的认知退化研究提供了首个标准化定量分析框架。

当前挑战

该数据集着力解决的领域挑战在于语音大模型普遍存在的语义失真问题，具体表现为跨模态转换中的信息衰减、语言结构解构等认知退化现象。构建过程中面临三重技术难点：语音-文本模态对齐需要精确控制声学特征与语义符号的映射关系；双语平行语料库的构建需克服文化语境差异导致的评估标准偏差；多学科知识评测模块的设计要求平衡学科广度与问题深度的矛盾。这些挑战使得数据集的标注过程必须依赖语言学与声学特征的双重校验机制，显著提升了数据清洗和标注一致性的技术门槛。

常用场景

经典使用场景

在语音处理领域，S2SBench数据集被广泛用于评估语音到语音大语言模型的智能退化现象。研究者通过该数据集中的sStoryCloze和zh-sStoryCloze任务，能够系统性地测试模型在理解连贯故事方面的表现。sCMMLU任务则进一步扩展了评估范围，涵盖多学科选择题，为模型的多领域能力提供全面检验。

实际应用

在实际应用中，S2SBench为语音助手、智能客服等产品的开发提供了重要基准。企业可通过该数据集检测产品在故事理解、多轮对话等场景的可靠性。教育领域则利用sCMMLU任务评估智能辅导系统在多学科知识问答中的准确性，确保系统能够满足不同学习阶段的需求。

衍生相关工作

基于S2SBench的评估框架，学术界衍生出多项重要研究。有工作专注于改进语音到文本的转换效率，通过优化sStoryCloze任务的评估指标提升模型性能。另一些研究则利用sCMMLU的多学科特性，开发出跨领域知识迁移的新方法，这些成果显著推动了语音大模型在复杂场景中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集