five

TTS-AGI/JA_Emilia_Yodas_ScribeEvents

收藏
Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/TTS-AGI/JA_Emilia_Yodas_ScribeEvents
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 language: - ja task_categories: - automatic-speech-recognition tags: - vocal-bursts - scribe-events - emilia pretty_name: JA Emilia Yodas - Scribe Events (Filtered) --- # JA Emilia Yodas - Scribe Events Filtered subset of [MrDragonFox/JA_Emilia_Yodas_266h](https://huggingface.co/datasets/MrDragonFox/JA_Emilia_Yodas_266h) containing only samples with **ElevenLabs Scribe v1 audio events**. ## Changes from source 1. **Filtered** to rows where `events_scribe` is non-empty (4433 rows kept) 2. **Bracket format unified**: `(event)` in `text_scribe` replaced with `[event]` ## Event types include - Vocal bursts: `<laughs>`, `<sighs>`, `<clears throat>`, etc. - Background: `<background noise>`, `<music>`, etc. - Other: `<pause>`, `<unintelligible>`, `<bleep>`, etc. ## Source Derived from [MrDragonFox/JA_Emilia_Yodas_266h](https://huggingface.co/datasets/MrDragonFox/JA_Emilia_Yodas_266h) (CC BY 4.0)
提供机构:
TTS-AGI
搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别与音频事件标注领域,JA_Emilia_Yodas_ScribeEvents数据集通过精密的筛选流程构建而成。该数据集源自MrDragonFox/JA_Emilia_Yodas_266h这一日语语音语料库,从中专门提取了包含ElevenLabs Scribe v1音频事件的样本。构建过程中,首先依据事件标注字段的非空条件进行过滤,保留了4433条有效数据行;随后对文本中的事件标记格式进行了统一处理,将圆括号格式的事件标识转换为方括号,确保了标注的一致性。这一方法不仅聚焦于语音内容本身,还系统性地整合了多种非语言音频事件,为研究多模态语音交互提供了结构化基础。
特点
该数据集的核心特点在于其细致的事件标注体系,涵盖了丰富的声音事件类型。具体包括表达情感的爆发性声音如笑声、叹息,环境背景音如噪音、音乐,以及其他功能性标记如停顿、模糊音与消音等。这些标注以统一的方括号格式嵌入文本转录中,使得模型能够同时学习语音识别与事件检测的双重任务。数据集专注于日语语音,并经过严格筛选,确保了样本质量与标注的完整性,为开发更自然、更具上下文感知能力的语音处理系统提供了关键资源。
使用方法
在语音识别与音频事件分析的研究与应用中,该数据集可直接用于训练或评估模型。使用者可通过HuggingFace平台加载数据集,利用其提供的音频文件与对应的事件标注文本进行端到端学习。典型应用场景包括构建能够识别语音内容并同步检测非语言事件的混合模型,例如在对话系统中集成情感反应或环境感知功能。数据集的格式统一且标注清晰,便于研究者进行预处理与特征提取,从而推动语音技术在多事件理解方向的发展。
背景与挑战
背景概述
在语音技术领域,自动语音识别系统通常专注于转录标准口语内容,而对非语言声音事件的建模相对薄弱。JA_Emilia_Yodas_ScribeEvents数据集由MrDragonFox等研究人员基于CC BY 4.0许可构建,专注于日语语音中的非语言事件标注。该数据集源自JA_Emilia_Yodas_266h语料库,通过筛选包含ElevenLabs Scribe v1音频事件的样本,系统性地标注了笑声、叹息、清嗓等声音爆发事件,以及背景噪声、音乐等环境事件。其核心研究问题在于提升语音识别系统对非语言声音的感知与理解能力,为多模态人机交互和情感计算研究提供了关键数据支撑。
当前挑战
该数据集旨在解决语音识别中非语言声音事件检测与分类的挑战,传统系统往往忽略这些富含副语言信息的信号,导致对话语境理解不完整。构建过程中的主要挑战包括从原始大规模语料中精准提取事件标注样本,确保事件类型的一致性;同时需统一标注格式,例如将括号符号标准化,以维护数据结构的严谨性。此外,非语言声音的多样性与主观性使得事件定义与边界划分变得复杂,要求标注过程具备高度的语言学与声学专业知识。
常用场景
经典使用场景
在语音识别与音频事件分析领域,JA_Emilia_Yodas_ScribeEvents数据集为研究非语言声音事件标注提供了关键资源。该数据集聚焦于包含ElevenLabs Scribe v1音频事件的样本,涵盖了笑声、叹息、清嗓等声音爆发事件,以及背景噪音、音乐等其他音频标记。研究者常利用其探索语音识别系统中如何有效整合非语言声音的检测与分类,以提升对自然对话中复杂声音模式的理解能力。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在音频事件检测与语音识别融合模型上。例如,基于其标注的事件类型,研究者开发了端到端的语音识别框架,将非语言声音作为特殊标记纳入转录流程;同时,也有工作探索声音爆发事件在情感计算中的应用,为多模态人工智能系统提供了新的数据基准与评估标准。
数据集最近研究
最新研究方向
在日语语音识别领域,JA_Emilia_Yodas_ScribeEvents数据集聚焦于语音爆发与背景事件的标注研究,为构建更具表现力和上下文感知能力的语音识别系统提供了关键数据支持。当前前沿方向集中于利用此类事件信息提升对话系统的情感理解与自然度,尤其在虚拟助手和客服场景中,通过整合笑声、叹息等非语言线索,模型能更准确地捕捉说话者意图与情绪状态。相关热点事件包括多模态交互技术的兴起,推动了语音事件分析与文本、视觉信息的融合,以增强人机交互的真实感。这一进展不仅促进了语音识别技术向细粒度语义解析的演进,也为跨语言、跨文化的情感计算研究奠定了数据基础,具有重要的学术与应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作