WESR-Bench

github2026-01-09 更新2026-01-10 收录

下载链接：

https://github.com/Cr-Fish/WESR

下载链接

链接失效反馈

官方服务：

资源简介：

WESR-Bench是一个包含900多个专家标注的话语的数据集，用于检测和定位语音中的非语言声音事件。它采用了新颖的位置感知评估协议，能够将ASR错误与事件检测分开，从而测量离散（独立）和连续（与语音混合）事件。

WESR-Bench is a dataset containing over 900 expert-annotated utterances for detecting and localizing non-verbal sound events in speech. It adopts a novel location-aware evaluation protocol that can separate ASR errors from event detection, thereby enabling the measurement of both discrete (independent) and continuous (speech-mixed) events.

创建时间：

2026-01-07

原始信息汇总

WESR 数据集概述

数据集基本信息

数据集名称：WESR (Word-level Event-Speech Recognition)
核心基准：WESR-Bench
主要用途：用于检测和定位语音中的非语言声音事件（如咳嗽、笑声等）的基准测试与评估。

数据集内容与规模

数据规模：包含 900 多条经过专家标注的话语。
数据特点：采用一种新颖的、位置感知的评估协议，能够将自动语音识别（ASR）错误与事件检测分离开来，从而实现对离散（独立）事件和连续（与语音混合）事件的测量。
训练数据：模型基于超过 1,700 小时的精选数据训练。

数据格式与标注

主要数据格式：支持 JSONL 和 JSON 格式。
标注标签体系：包含 21 种经过仔细分类的声音事件，并分为两大类：
- 离散事件 (15种)：inhale, cough, laughs, laughing, crowd_laughter, chuckle, shout, sobbing, cry, giggle, exhale, sigh, clear_throat, roar, scream, breathing。
- 连续事件 (6种)：crying, laughing, panting, shouting, singing, whispering。

评估方法与指标

评估类型：
- sequence：WESR 核心指标（默认）。
- classification：分类准确率。
标签评估模式：
- by_type：对离散标签 [tag] 和连续标签 <tag> 进行分别评估。
- combined：对所有标签进行合并评估。
核心评估指标：精确率（Precision）、召回率（Recall）、F1 分数（F1）。
聚合指标：
- Micro：跨所有实例聚合计算。
- Macro：跨所有标签类型平均计算。

获取与使用

数据集地址：https://huggingface.co/datasets/yfish/WESR-Bench
下载方式：可通过提供的 Python 脚本 eval/download.py 从 Hugging Face 下载。
输出结果：评估结果以 Markdown 表格形式呈现，包含每个标签以及 Micro、Macro 级别的指标。

相关资源

论文地址：https://arxiv.org/abs/2601.04508
引用信息：如使用该数据集，请引用相关论文。

搜集汇总

数据集介绍

构建方式

在语音事件识别领域，WESR-Bench数据集的构建体现了严谨的学术规范。该数据集由超过900条经过专家标注的话语样本构成，其核心创新在于引入了一种新颖的位置感知评估协议。这一协议巧妙地将自动语音识别错误与事件检测任务分离开来，从而能够精确评估离散事件与连续事件。数据集的构建基于超过1700小时的精选语音数据，确保了其规模和代表性，为模型的训练与评估提供了坚实的基准。

特点

WESR-Bench数据集展现出多维度的重要特征。它提出了一个包含21类非语言声音事件的精细化分类体系，并创新性地将其划分为离散事件与连续事件两大类。数据集采用JSONL和JSON两种标准化格式，便于数据处理与交换。其评估框架支持序列评估与分类评估两种模式，并能按标签类型进行细分分析，输出包含精确率、召回率和F1分数在内的详细指标，为研究者提供了全面、深入的性能洞察。

使用方法

使用WESR-Bench数据集进行模型评估遵循一套清晰的流程。首先通过提供的脚本从Hugging Face平台下载数据集，获取音频文件及标注信息。随后，用户需按照指定格式准备模型预测结果文件。通过调用评估模块，可以灵活配置评估类型与标签分析模式，执行评估后系统将生成结构化的结果表格。该流程设计兼顾了易用性与灵活性，使得研究者能够高效地将其集成到自身的语音事件识别研究工作中。

背景与挑战

背景概述

在语音识别技术不断深化的背景下，非言语声音事件的检测与定位成为提升人机交互自然度的关键环节。WESR-Bench数据集由Chenchen Yang等研究人员于2026年构建，其核心研究问题聚焦于在连续语音流中精准识别并定位如咳嗽、笑声、呼吸等非言语声音事件。该数据集通过引入位置感知评估协议，将自动语音识别错误与事件检测分离，从而为离散事件和连续事件的量化评估提供了标准化基准，显著推动了音频-语言模型在细粒度语音理解领域的发展。

当前挑战

WESR-Bench旨在解决非言语声音事件检测中的核心挑战，包括在连续语音中区分事件与语音的边界模糊性，以及处理事件类别间声学特征的相似性。在构建过程中，数据集面临标注一致性难题，需专家对900余条话语中的21类声音事件进行精细划分；同时，数据规模化要求从1700多小时语音中筛选并标注高质量样本，确保评估协议能有效剥离识别错误，这增加了数据清洗与标注设计的复杂性。

常用场景

经典使用场景

在语音识别与音频事件检测的交叉领域，WESR-Bench数据集为研究者提供了一个标准化的评估平台，专门用于检测和定位语音中的非语言声音事件。该数据集通过900余条专家标注的语音样本，支持对离散事件（如咳嗽、笑声）和连续事件（如哭泣、低语）的精确识别与边界划分。其经典使用场景在于训练和评估模型在复杂语音流中分离语音内容与非语言事件的能力，尤其在嘈杂或多说话人环境中，为音频理解技术的进步奠定了数据基础。

解决学术问题

WESR-Bench数据集解决了语音识别领域长期存在的关键学术问题，即如何有效区分自动语音识别错误与真实非语言事件。通过引入位置感知的评估协议，该数据集将事件检测任务从传统的转录误差中剥离，使得研究者能够独立衡量模型对21类精细分类声音事件的识别性能。这一创新不仅提升了事件检测的准确性，还推动了多模态音频分析中细粒度语义理解的研究，为语音技术向更自然、更人性化交互方向发展提供了理论支撑。

衍生相关工作

围绕WESR-Bench数据集，学术界衍生出一系列经典研究工作，主要集中在音频-语言模型优化与跨模态融合技术上。基于该数据集的基准测试，研究者开发了多种端到端事件检测架构，如结合Transformer的序列标注模型，以及针对连续事件的时间边界预测算法。这些工作不仅推动了开源音频模型在非语言事件识别上的性能超越商业API，还促进了细粒度音频事件分类、多任务学习等方向的深入探索，为语音处理领域的标准化评估与创新提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集