keylazy/slurp-ear-masked-eval

Name: keylazy/slurp-ear-masked-eval
Creator: keylazy
Published: 2026-04-30 21:39:55
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/keylazy/slurp-ear-masked-eval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是[SLURP（口语理解资源包）](https://huggingface.co/datasets/qmeeus/slurp)数据集的一个自定义评估子集。它专门设计用于评估主动语音助手的EAR（执行和修复）指标。通过使用强制对齐掩蔽协议，真实的人类音频被数学上的高振幅白噪声扰动，创建两种严格控制的实验条件：可回答（语义不变）和不可回答（语义退化）。数据集结构包括字段如slurp_id（唯一标识符）、sentence（干净的地面真实文本转录）、annotation（原始SLURP带括号的实体注释）、intent（表示特定SLURP意图的整数类标签）、critical_word（从注释中提取的执行关键实体）、non_critical_word（从句子中提取的语义不变停用词或填充词）、answerable_audio（语义不变变体，白噪声注入到non_critical_word的精确时间戳上）和unanswerable_audio（语义退化变体，白噪声注入到critical_word的精确时间戳上）。音频特征以16kHz采样率提供。

This dataset is a custom evaluation subset derived from the [SLURP (Spoken Language Understanding Resource Package)](https://huggingface.co/datasets/qmeeus/slurp) dataset. It is specifically engineered to evaluate the **EAR (Execution and Repair)** metric for active voice assistants. Using a forced-alignment masking protocol, real human audio is mathematically perturbed with high-amplitude white noise to create two strictly controlled experimental conditions: Answerable (Semantic-Invariant) and Unanswerable (Semantic-Degrading). The dataset structure includes fields like slurp_id (unique identifier), sentence (clean, ground-truth text transcript), annotation (original SLURP bracketed entity annotation), intent (integer class label representing the specific SLURP intent), critical_word (execution-critical entity extracted from the annotation), non_critical_word (semantic-invariant stopword or filler word extracted from the sentence), answerable_audio (Semantic-Invariant variant with white noise injected over the exact millisecond timestamps of the non_critical_word), and unanswerable_audio (Semantic-Degrading variant with white noise injected over the exact millisecond timestamps of the critical_word). Audio features are provided at 16kHz sampling rate.

提供机构：

keylazy

搜集汇总

数据集介绍

构建方式

该数据集源自SLURP语料库，专为评估主动语音助手的EAR指标而设计。构建过程中，采用强制对齐遮蔽协议，利用Whisper模型进行精准的时间对齐，随后对原始人类语音施加高强度白噪声扰动，从而生成两种严格控制的实验条件：可回答（语义不变）与不可回答（语义退化）样本。每个音频样本均包含成对变体，其中噪声精确注入非关键词或关键词的毫秒级时间戳位置，确保语义完整性或破坏性。

使用方法

使用时，用户可加载train分片中的answerable_audio与unanswerable_audio字段，分别测试模型在噪声干扰下的语义鲁棒性与失败应对机制。建议结合原始的SLURP意图标签及句子文本，评估自动语音识别与口语理解系统的综合表现。由于样本规模有限，该数据集主要适用于指标验证与消融实验，而非模型预训练或微调场景。

背景与挑战

背景概述

SLURP EAR Masked Eval 数据集是面向语音助手执行与修复（EAR）评估指标而构建的专用评测子集，由相关研究团队在 SLURP（口语理解资源包）基础上于近期开发。其核心研究问题在于如何量化测试语音助手在真实噪声环境下的任务执行能力与修复行为——即当音频被局部噪声干扰时，模型能否准确区分命令是否仍可完成，并据此决定执行或请求澄清。该数据集通过强制对齐掩码协议，对原始人类语音在毫秒级时间精度下注入高斯白噪声，分别生成语义不变（可回答）与语义退化（不可回答）两种严格对照音频，为主动式语音交互系统的鲁棒性评估提供了标准化的基准。尽管数据集规模较小（仅含51个训练样本），但其精准的噪声扰动设计和对执行-修复循环的模拟在口语理解领域具有重要方法论意义，有望推动更安全、更可信赖的语音助手评估体系的发展。

当前挑战

该数据集所解决的领域核心挑战在于主动语音助手在面对音频局部损坏时的判断与决策问题：现有自动语音识别与口语理解系统常在噪声环境下产生两类严重错误——将可执行命令因非关键部分噪声而误判为不可执行（过度拒绝），或反之将不可执行命令因关键实体被遮蔽而错误执行（幻觉执行），二者均导致用户体验崩溃或任务失败。在数据集构建过程中，精确的时间对齐是主要技术难点：必须使用 Whisper 等先进模型进行强制对齐，以确保噪声注入的风口恰好覆盖关键或非关键单词的毫秒级时间戳，任何对齐偏差都会导致条件污染与标签错误。此外，噪声幅度的选择需足够高以掩盖原词但又不完全破坏频谱特征，在语义退化与感知可区分性之间寻找平衡，这要求在数学上精确调节信噪比参数。最后，从 SLURP 源数据中选取并标注关键实体与非关键实体的语义等级分类本身存在主观性，需要依赖原有的括号标注结构并制定严格的提取规则以保证数据集内部一致性。

常用场景

经典使用场景

SLURP-EAR-Masked-Eval数据集专为评估语音助手的主动执行与修复能力而设计。该数据集基于SLURP语料库，通过强制对齐掩码协议，对真实人类语音注入高振幅白噪声，构建了两种严格可控的实验条件：可回答（语义不变）与不可回答（语义退化）。在经典使用场景中，研究者利用该数据集测试模型在关键实体被噪声掩蔽时的语义理解鲁棒性，尤其在区分可执行命令与语义模糊命令方面，为评估语音系统的决策边界提供了标准化基准。

解决学术问题

该数据集直击语音理解领域中一个核心学术挑战：如何在声学干扰下准确评估模型的语义保持能力与故障修复机制。传统语音识别评测往往只关注词错误率（WER），而忽略了模型在信息缺失场景下的适应性。SLURP-EAR-Masked-Eval通过分离‘任务能力’与‘修复行为’两个维度，解决了既往评测指标无法区分声学损坏与语义退化的问题，推动了语音助手从被动转录向主动交互的评估范式转变，对提升人机对话系统的安全性与可靠性具有深远意义。

实际应用

在实际应用中，该数据集被用于开发更智能的语音助手，使其能识别何时该执行命令、何时该主动请求澄清。例如，在智能家居控制、车载语音交互或医疗语音命令系统中，当背景噪声或部分语音丢失时，模型需要判断指令是否完整。SLURP-EAR-Masked-Eval提供的高质量标注音频，使得企业能够测试其产品在噪声环境下的容错能力，并训练模型在不确定时主动发问，而非错误执行，从而显著提升用户体验与系统安全性。

数据集最近研究