espnet/yodas2
收藏数据集概述
YODAS2 是 YODAS 数据集的长格式版本。与 espnet/yodas 数据集相比,YODAS2 具有以下新特性:
- 以长格式(视频级别)提供数据,音频未分段。
- 音频采用更高的采样率(即 24k)进行编码。
数据结构
每个数据点对应于 YouTube 上的一个完整视频,包含以下字段:
video_id: 视频的唯一 ID(注意这不是 YouTube 中的视频 ID)duration: 视频的总时长(以秒为单位)audio:path: 本地路径到 wav 文件(标准模式下),流模式下为空sampling_rate: 固定为 24k(espnet/yodas中的采样率为 16k)array: wav 样本(浮点数)
utterances:utt_id: 话语的唯一 IDtext: 话语的转录文本start: 话语的起始时间戳(以秒为单位)end: 话语的结束时间戳(以秒为单位)
使用模式
YODAS2 支持两种模式:
-
标准模式:每个子集在首次迭代前会下载到本地磁盘。 python from datasets import load_dataset ds = load_dataset(espnet/yodas2, en000) print(next(iter(ds[train])))
-
流模式:大多数文件将通过流方式传输,而不是下载到本地设备。可以快速检查数据集。 python from datasets import load_dataset ds = load_dataset(espnet/yodas2, en000, streaming=True)
参考文献
@inproceedings{li2023yodas, title={Yodas: Youtube-Oriented Dataset for Audio and Speech}, author={Li, Xinjian and Takamichi, Shinnosuke and Saeki, Takaaki and Chen, William and Shiota, Sayaka and Watanabe, Shinji}, booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)}, pages={1--8}, year={2023}, organization={IEEE} }




