DE_Emilia_Yodas_ScribeEvents

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/TTS-AGI/DE_Emilia_Yodas_ScribeEvents

下载链接

链接失效反馈

官方服务：

资源简介：

DE Emilia Yodas - Scribe Events 是一个经过过滤的数据集子集，源自 MrDragonFox/DE_Emilia_Yodas_680h 数据集，仅包含带有 ElevenLabs Scribe v1 音频事件的样本。原始数据集经过了两项主要修改：首先，筛选出 `events_scribe` 字段非空的行，保留了 12173 条数据；其次，统一了括号格式，将 `text_scribe` 中的 `(event)` 替换为 `[event]`。数据集中的事件类型包括：声音爆发（如 `<laughs>`, `<sighs>`, `<clears throat>` 等）、背景音（如 `<background noise>`, `<music>` 等）以及其他类型（如 `<pause>`, `<unintelligible>`, `<bleep>` 等）。该数据集适用于德语自动语音识别任务，采用 CC BY 4.0 许可协议。

创建时间：

2026-03-26

搜集汇总

数据集介绍

构建方式

在德语语音识别研究领域，DE_Emilia_Yodas_ScribeEvents数据集通过精心筛选构建而成。该数据集源自规模更大的DE_Emilia_Yodas_680h语料库，采用事件标注过滤机制，仅保留包含ElevenLabs Scribe v1音频事件标注的样本。构建过程中，对原始数据中的事件括号格式进行了标准化处理，将文本内的事件标记统一调整为方括号形式，确保了标注风格的一致性。最终从原始语料中筛选出12,173条有效样本，形成了这个专注于语音事件分析的专业子集。

特点

该数据集的核心特征在于其精细的语音事件标注体系，涵盖了丰富的人声突发与非语音音频事件。标注系统详细区分了笑声、叹息、清嗓等各类人声突发事件，同时纳入了背景噪音、音乐等环境声学事件，以及停顿、模糊语音等特殊标记。所有事件均以结构化标签形式嵌入转录文本中，为研究语音的副语言特征和音频事件检测提供了高质量的标注数据。这种多维度的标注方式使得数据集特别适用于训练能够理解语音中非语言成分的智能系统。

使用方法

研究人员可将该数据集直接应用于德语语音事件识别与分类模型的开发。在使用时，需加载经过过滤的样本，其中每条数据均包含音频文件及其带有事件标注的转录文本。标注文本中的事件标签如<laughs>、<background noise>等，可作为模型训练的目标信号。该数据集兼容常见的自动语音识别框架，能够支持端到端的语音事件检测任务，或作为多任务学习的辅助数据，以增强模型对语音中非词汇信息的感知能力。

背景与挑战

背景概述

在语音技术领域，自动语音识别系统通常专注于转录标准口语内容，而对非语言声音事件的识别与标注则构成一项前沿挑战。DE_Emilia_Yodas_ScribeEvents数据集由MrDragonFox等研究人员基于CC BY 4.0许可构建，其核心研究问题在于提升模型对德语语音中各类非语言事件（如笑声、叹息、背景噪音等）的感知与处理能力。该数据集的创建深化了语音事件标注的粒度，为构建更自然、鲁棒的多模态交互系统提供了关键资源，对语音合成、情感计算及人机交互领域产生了积极影响。

当前挑战

该数据集旨在解决语音事件识别这一细分任务的挑战，即如何准确检测并分类语音流中的非语言声音事件，这些事件对于理解说话者意图与语境至关重要。在构建过程中，挑战主要体现在数据筛选与标注一致性上：原始音频需通过ElevenLabs Scribe v1工具提取事件，并统一标注格式（如将括号格式标准化），同时确保事件类型（如发声爆发、背景音等）的覆盖范围与标注准确性，以支持模型学习复杂的声音模式。

常用场景

经典使用场景

在德语自动语音识别领域，DE_Emilia_Yodas_ScribeEvents数据集为研究非语言事件标注提供了关键资源。该数据集专注于包含Scribe音频事件的样本，如笑声、叹息或背景噪音，这些事件在传统语音识别中常被忽略。通过统一标注格式并过滤出相关事件，它支持模型训练以识别和转录口语中的副语言元素，从而提升语音识别系统在真实对话场景中的鲁棒性和准确性。

实际应用

在实际应用中，该数据集可服务于智能助理、客服系统及媒体内容自动化处理等领域。例如，在德语客服对话中，系统通过识别用户的叹息或笑声，能更精准地判断情绪状态，提供个性化响应。此外，在播客或视频转录中，标注背景音乐或噪音有助于生成更结构化的字幕，增强可访问性。这些应用提升了人机交互的流畅度与用户体验。

衍生相关工作

基于该数据集衍生的经典工作包括改进的端到端语音识别模型，这些模型整合事件检测模块以处理非语言音频。研究还扩展到多任务学习框架，同时优化事件分类和语音转录性能。此外，该数据集启发了对德语副语言语料库的构建，促进了跨语言比较研究，为语音技术中的事件感知方法奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集