stepfun-ai/StepEval-Audio-Paralinguistic

Name: stepfun-ai/StepEval-Audio-Paralinguistic
Creator: stepfun-ai
Published: 2025-08-29 05:59:07
License: 暂无描述

Hugging Face2025-08-29 更新2025-08-09 收录

下载链接：

https://hf-mirror.com/datasets/stepfun-ai/StepEval-Audio-Paralinguistic

下载链接

链接失效反馈

官方服务：

资源简介：

StepEval-Audio-Paralinguistic是一个针对副语言信息理解的语音到语音基准数据集，旨在评估AI模型在11个不同维度上对言语中副语言信息的理解能力。该数据集包含550个经过精心策划和注释的语音样本，用于评估超越语义理解的模型能力。

StepEval-Audio-Paralinguistic is a speech-to-speech benchmark designed to evaluate AI models understanding of paralinguistic information in speech across 11 distinct dimensions. The dataset contains 550 carefully curated and annotated speech samples for assessing capabilities beyond semantic understanding.

提供机构：

stepfun-ai

搜集汇总

数据集介绍

构建方式

在语音交互技术迅猛发展的背景下，超越语义理解的副语言信息感知能力成为评估AI模型的关键维度。StepEval-Audio-Paralinguistic数据集的构建始于从播客录音、AudioSet、CochlScene及VocalSound等多源语料中精心采集原始语音样本。针对11个副语言维度，每个维度均收集50个样本，并采用开放式自然语言描述进行专业标注与验证。为增强数据多样性，对代表性不足的类别实施了数据增强，并通过合成音频混合与可控参数调整来构建场景与事件类别。随后，基于标注信息生成文本问答对，并利用语音合成技术将其转化为音频，随机插入原始语音片段前后，最终形成涵盖性别、年龄、情感、语速等丰富副语言信息的评测数据集。

特点

该数据集以其全面性与专业性在同类基准中脱颖而出。它覆盖了从基础属性（如性别、年龄）到语音特征（如情感、音高、节奏）以及环境声学（如场景检测、声音事件识别）在内的11个精细维度，每个维度均包含50个均衡分布的样本，总计550条高质量音频。所有音频均标准化为24kHz采样率、时长不超过30秒，并经过严格的时长控制与人口统计学平衡处理。特别地，场景与声音事件类别采用了合成音频混合技术，而副语言声音类别则从VocalSound中精心选取7种类型插入，确保了数据集的挑战性与生态效度。标注过程采用经专业验证的开放式描述，为模型评估提供了可靠且细粒度的黄金标准。

使用方法

该数据集专为评估语音输入/语音输出模型的副语言理解能力而设计，遵循标准化的三阶段评估协议。首先，通过模型API输入原始24kHz音频样本（≤30秒），收集生成的响应音频。随后，利用自动语音识别系统将响应音频转录为文本，并执行自动文本归一化处理。最后，通过LLM_judge评估脚本，将ASR转录文本与真实标注进行语义相似度比较，而非简单字符串匹配，从而允许部分正确响应获得相应分数。最终输出每个类别的准确率得分，为研究者提供全面、客观的模型性能基准。研究者可通过HuggingFace页面获取数据集及配套评估代码，直接复现论文中的评测结果。

背景与挑战

背景概述

在语音人工智能领域，超越文本语义的副语言信息理解是迈向真正人机交互的关键瓶颈。为系统评估模型对性别、年龄、情感、语速、音色乃至环境声学事件等多维副语言特征的感知能力，阶跃星辰团队于2025年发布了StepEval-Audio-Paralinguistic基准数据集。该数据集由550条精心标注的语音样本构成，覆盖11个独立维度，每个维度包含50条样本，数据来源融合了播客录音与AudioSet、CochlScene、VocalSound等公开音频库。其核心研究问题在于构建一个标准化、可复现的评测框架，以揭示当前语音-语音模型在语义理解之外的感知短板。该基准的提出，填补了副语言理解评测领域的空白，为模型能力的横向对比与迭代优化提供了关键标尺，对推动语音交互技术迈向更自然、更细腻的层次具有深远影响。

当前挑战

该数据集所面临的挑战首先体现在领域问题的复杂性上：副语言信息具有高度主观性与多维交织性，例如同一句话的“讽刺”情感可能与特定的语速、音高和节奏模式耦合，要求模型具备跨维度的联合推理能力，而非简单的单标签分类。其次，在数据集构建过程中，挑战尤为严峻：为保证样本的多样性与均衡性，研究团队需对年龄、性别等人口统计学特征进行精细化平衡，并对情感、场景等主观标注进行专业验证；此外，针对场景与事件类别，采用了受控参数下的音频混合与合成技术，以模拟真实环境中的声学复杂性，这要求精确控制信噪比与混合比例，避免引入伪影。最后，评测协议依赖ASR转录与LLM评判，面临语音识别误差与语义匹配模糊性的双重挑战，需设计精细的评分策略以兼顾准确性与鲁棒性。

常用场景

经典使用场景

StepEval-Audio-Paralinguistic数据集的核心使命在于为语音到语音的生成模型提供一项精细化的副语言理解能力评测基准。它囊括了性别、年龄、音色、情感、音高、节奏、语速、说话风格、场景、声音事件及人声效果等11个维度，每个维度均包含50个精心标注的样本，总计550条语音。该基准不仅要求模型识别语音中的语义信息，更强调对其韵律、情感和背景声学环境的深度感知，从而全面衡量模型在复杂听觉场景中的综合表现。研究者利用该数据集可系统性地评估模型对副语言特征的捕捉与生成能力，推动语音交互技术从“听得懂”向“听得深”跨越。

实际应用

在实际应用场景中，该数据集为智能语音助手、虚拟角色交互及无障碍通信系统提供了关键的优化依据。例如，通过评估模型对年龄和性别的准确判断，可辅助开发更具个性化的语音界面；对情感和语速的识别能力则直接服务于心理健康监测、在线教育情绪反馈等实时场景。此外，对环境声音事件（如咳嗽、喷嚏）的检测能力可应用于远程医疗诊断或智能家居环境感知，使语音系统能更精准地响应人类非言语信号，提升人机协作的自然度与包容性。

衍生相关工作

该数据集的发布催生了一系列富有影响力的后续研究。基于其11维评测框架，研究者开发了针对副语言特征的专用增强方法，如通过合成音频混合与TTS问答对生成技术提升模型对罕见场景的鲁棒性。基准结果中，Step-Audio 2模型以76.55%的平均准确率大幅领先，其高表现推动了针对音色、节奏和风格等维度的专项优化工作。此外，该数据集启发了跨语种副语言理解基准的构建，以及融合LLM评判的自动化评估流水线，成为语音领域模型能力对比与迭代的重要参考标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集