TTS-AGI/JA_Emilia_Yodas_ScribeEvents

Name: TTS-AGI/JA_Emilia_Yodas_ScribeEvents
Creator: TTS-AGI
Published: 2026-03-28 13:29:05
License: 暂无描述

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/TTS-AGI/JA_Emilia_Yodas_ScribeEvents

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 language: - ja task_categories: - automatic-speech-recognition tags: - vocal-bursts - scribe-events - emilia pretty_name: JA Emilia Yodas - Scribe Events (Filtered) --- # JA Emilia Yodas - Scribe Events Filtered subset of [MrDragonFox/JA_Emilia_Yodas_266h](https://huggingface.co/datasets/MrDragonFox/JA_Emilia_Yodas_266h) containing only samples with **ElevenLabs Scribe v1 audio events**. ## Changes from source 1. **Filtered** to rows where `events_scribe` is non-empty (4433 rows kept) 2. **Bracket format unified**: `(event)` in `text_scribe` replaced with `[event]` ## Event types include - Vocal bursts: `<laughs>`, `<sighs>`, `<clears throat>`, etc. - Background: `<background noise>`, `<music>`, etc. - Other: `<pause>`, `<unintelligible>`, `<bleep>`, etc. ## Source Derived from [MrDragonFox/JA_Emilia_Yodas_266h](https://huggingface.co/datasets/MrDragonFox/JA_Emilia_Yodas_266h) (CC BY 4.0)

提供机构：

TTS-AGI

搜集汇总

数据集介绍

构建方式

在语音识别与音频事件标注领域，JA_Emilia_Yodas_ScribeEvents数据集通过精密的筛选流程构建而成。该数据集源自MrDragonFox/JA_Emilia_Yodas_266h这一日语语音语料库，从中专门提取了包含ElevenLabs Scribe v1音频事件的样本。构建过程中，首先依据事件标注字段的非空条件进行过滤，保留了4433条有效数据行；随后对文本中的事件标记格式进行了统一处理，将圆括号格式的事件标识转换为方括号，确保了标注的一致性。这一方法不仅聚焦于语音内容本身，还系统性地整合了多种非语言音频事件，为研究多模态语音交互提供了结构化基础。

特点

该数据集的核心特点在于其细致的事件标注体系，涵盖了丰富的声音事件类型。具体包括表达情感的爆发性声音如笑声、叹息，环境背景音如噪音、音乐，以及其他功能性标记如停顿、模糊音与消音等。这些标注以统一的方括号格式嵌入文本转录中，使得模型能够同时学习语音识别与事件检测的双重任务。数据集专注于日语语音，并经过严格筛选，确保了样本质量与标注的完整性，为开发更自然、更具上下文感知能力的语音处理系统提供了关键资源。

使用方法

在语音识别与音频事件分析的研究与应用中，该数据集可直接用于训练或评估模型。使用者可通过HuggingFace平台加载数据集，利用其提供的音频文件与对应的事件标注文本进行端到端学习。典型应用场景包括构建能够识别语音内容并同步检测非语言事件的混合模型，例如在对话系统中集成情感反应或环境感知功能。数据集的格式统一且标注清晰，便于研究者进行预处理与特征提取，从而推动语音技术在多事件理解方向的发展。

背景与挑战

背景概述

在语音技术领域，自动语音识别系统通常专注于转录标准口语内容，而对非语言声音事件的建模相对薄弱。JA_Emilia_Yodas_ScribeEvents数据集由MrDragonFox等研究人员基于CC BY 4.0许可构建，专注于日语语音中的非语言事件标注。该数据集源自JA_Emilia_Yodas_266h语料库，通过筛选包含ElevenLabs Scribe v1音频事件的样本，系统性地标注了笑声、叹息、清嗓等声音爆发事件，以及背景噪声、音乐等环境事件。其核心研究问题在于提升语音识别系统对非语言声音的感知与理解能力，为多模态人机交互和情感计算研究提供了关键数据支撑。

当前挑战

该数据集旨在解决语音识别中非语言声音事件检测与分类的挑战，传统系统往往忽略这些富含副语言信息的信号，导致对话语境理解不完整。构建过程中的主要挑战包括从原始大规模语料中精准提取事件标注样本，确保事件类型的一致性；同时需统一标注格式，例如将括号符号标准化，以维护数据结构的严谨性。此外，非语言声音的多样性与主观性使得事件定义与边界划分变得复杂，要求标注过程具备高度的语言学与声学专业知识。

常用场景

经典使用场景

在语音识别与音频事件分析领域，JA_Emilia_Yodas_ScribeEvents数据集为研究非语言声音事件标注提供了关键资源。该数据集聚焦于包含ElevenLabs Scribe v1音频事件的样本，涵盖了笑声、叹息、清嗓等声音爆发事件，以及背景噪音、音乐等其他音频标记。研究者常利用其探索语音识别系统中如何有效整合非语言声音的检测与分类，以提升对自然对话中复杂声音模式的理解能力。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在音频事件检测与语音识别融合模型上。例如，基于其标注的事件类型，研究者开发了端到端的语音识别框架，将非语言声音作为特殊标记纳入转录流程；同时，也有工作探索声音爆发事件在情感计算中的应用，为多模态人工智能系统提供了新的数据基准与评估标准。

数据集最近研究