espnet/yodas2

Name: espnet/yodas2
Creator: espnet
Published: 2025-05-15 22:28:55
License: 暂无描述

Hugging Face2025-05-15 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/espnet/yodas2

下载链接

链接失效反馈

官方服务：

资源简介：

YODAS2是从YODAS数据集派生出的长格式数据集。它提供了与[espnet/yodas](https://huggingface.co/datasets/espnet/yodas)相同的数据集，但YODAS2有以下新特性：以长格式（视频级别）的形式进行格式化，音频没有被分段；音频使用更高的采样率（即24k）进行编码。每个数据点对应一个YouTube上的完整视频，包含视频ID、持续时间、音频信息（包括路径、采样率和wav样本数组）和话语信息（包括话语ID、文字转录、开始时间和结束时间）。YODAS2支持两种模式：标准模式和流模式。标准模式下，每个子集在第一次迭代之前会下载到本地设备；流模式下，大部分文件将会被流式传输而不是下载到本地设备。

YODAS2 is the long-form dataset derived from the YODAS dataset. It provides the same dataset as [espnet/yodas](https://huggingface.co/datasets/espnet/yodas) but with new features such as being formatted in the long-form (video-level) without audio segmentation and encoding audio at a higher sampling rate (i.e., 24k). Each data point corresponds to a complete video on YouTube, including fields for video ID, duration, audio information (path, sampling rate, and wav sample array), and utterance information (utt_id, text transcription, start timestamp, and end timestamp). YODAS2 supports two modes: standard mode, where each subset is downloaded to the local device before the first iteration, and streaming mode, where most files are streamed instead of downloaded to the local device.

提供机构：

espnet

原始信息汇总

数据集概述

YODAS2 是 YODAS 数据集的长格式版本。与 espnet/yodas 数据集相比，YODAS2 具有以下新特性：

以长格式（视频级别）提供数据，音频未分段。
音频采用更高的采样率（即 24k）进行编码。

数据结构

每个数据点对应于 YouTube 上的一个完整视频，包含以下字段：

video_id: 视频的唯一 ID（注意这不是 YouTube 中的视频 ID）
duration: 视频的总时长（以秒为单位）
audio:
- path: 本地路径到 wav 文件（标准模式下），流模式下为空
- sampling_rate: 固定为 24k（espnet/yodas 中的采样率为 16k）
- array: wav 样本（浮点数）
utterances:
- utt_id: 话语的唯一 ID
- text: 话语的转录文本
- start: 话语的起始时间戳（以秒为单位）
- end: 话语的结束时间戳（以秒为单位）

使用模式

YODAS2 支持两种模式：

标准模式：每个子集在首次迭代前会下载到本地磁盘。 python from datasets import load_dataset ds = load_dataset(espnet/yodas2, en000) print(next(iter(ds[train])))
流模式：大多数文件将通过流方式传输，而不是下载到本地设备。可以快速检查数据集。 python from datasets import load_dataset ds = load_dataset(espnet/yodas2, en000, streaming=True)

参考文献

@inproceedings{li2023yodas, title={Yodas: Youtube-Oriented Dataset for Audio and Speech}, author={Li, Xinjian and Takamichi, Shinnosuke and Saeki, Takaaki and Chen, William and Shiota, Sayaka and Watanabe, Shinji}, booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)}, pages={1--8}, year={2023}, organization={IEEE} }

搜集汇总

数据集介绍

构建方式

YODAS2数据集的构建基于YODAS数据集，保留了原有的数据集内容，但进行了格式上的调整与质量上的提升。该数据集采用长格式，即视频级别的数据，不进行音频分段，并使用更高的采样率（24k）对音频进行编码，从而提高数据质量与利用效率。

特点

YODAS2数据集的主要特点在于其长格式设计，提供了整段视频的数据，而非分段音频，这使得数据集更加适用于视频级别的语音识别和音频分析任务。此外，它支持两种模式：标准模式和流模式，以适应不同的数据加载和预处理需求。

使用方法

使用YODAS2数据集时，用户可以根据需要选择标准模式或流模式。在标准模式下，数据集的子集会在首次迭代前下载至本地；而在流模式下，大部分文件将直接流式传输，无需下载，便于快速检查数据集内容。加载数据集可通过Python的datasets库实现，根据模式的不同，加载时间与资源消耗也会有所差异。

背景与挑战

背景概述

YODAS2数据集是YODAS数据集的扩展版本，由Li Xinjian等研究人员于2023年提出。该数据集致力于音频与语音研究，特别针对YouTube视频内容。YODAS2保留了YODAS的核心特性，并新增了视频级别的数据格式，采用更高的采样率（24k）进行音频编码，以提升语音识别与处理的精确度。该数据集的构建，为语音识别、视频内容分析等领域提供了丰富的资源，对相关研究产生了重要影响。

当前挑战

YODAS2数据集面临的挑战主要包括：1)领域问题方面，如何更准确地进行视频中的长段语音识别，以及如何处理非分段音频带来的识别难度；2)构建过程中，数据集的高采样率要求更大的存储空间和计算资源，同时确保数据在下载和流式传输中的稳定性和效率。

常用场景

经典使用场景

在语音识别与处理研究领域，YODAS2数据集以其视频级别的长格式特性，成为分析语音与音频流的宝贵资源。该数据集常被用于端到端的语音识别任务，通过其未分割的音频流，研究者能够更准确地捕捉到语言的自然流畅性，进而提升识别系统的准确度和自然度。

解决学术问题

YODAS2数据集解决了语音识别中存在的断句和上下文理解问题，其高采样率的音频编码使得语音特征更加细腻，有助于模型更好地理解长篇对话的语境信息，从而推动学术研究中对复杂语音场景的处理能力。

衍生相关工作

基于YODAS2数据集，学术界已衍生出一系列相关研究工作，包括但不限于对长篇语音的识别算法改进、跨语种的语音识别技术以及针对不同噪声环境的鲁棒性语音识别系统研究，极大地丰富了语音处理领域的研究内容和方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集