ReDUB/SoundHarvest

Name: ReDUB/SoundHarvest
Creator: ReDUB
Published: 2023-12-14 22:51:51
License: 暂无描述

Hugging Face2023-12-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ReDUB/SoundHarvest

下载链接

链接失效反馈

官方服务：

资源简介：

SoundHarvest数据集是一个多语言音频和字幕数据集，主要用于翻译和音频到音频的任务。数据集支持多种语言，包括阿拉伯语、西班牙语、法语、印地语、印度尼西亚语、日语、韩语、葡萄牙语、俄语、泰语、土耳其语、越南语和英语。数据集的结构包括音频文件和字幕文件，原始版本包含487小时27分钟59秒的音频文件。使用限制包括版权问题和数据准确性。数据集可以用于自动语音识别、多语言自然语言处理、语言学研究以及语音到语音的翻译。

提供机构：

ReDUB

原始信息汇总

数据集概述

基本信息

许可: other
任务类别:
- 翻译
- 音频到音频
语言:
- 阿拉伯语 (ar)
- 西班牙语 (es)
- 法语 (fr)
- 印地语 (hi)
- 印度尼西亚语 (id)
- 日语 (ja)
- 韩语 (ko)
- 葡萄牙语 (pt)
- 俄语 (ru)
- 泰语 (th)
- 土耳其语 (tr)
- 越南语 (vi)
- 英语 (en)
标签: speech2speech
名称: SoundHarvest
规模: 1K<n<10K

数据格式

数据集的结构如下： yaml dataset/ ├── video_id_1/ │ ├── audio_language_1.wav │ ├── audio_language_2.wav │ ├── subtitle_language_1.vtt │ ├── subtitle_language_2.vtt │ └── unmatched/ │ └── ... ├── video_id_2/ │ ├── ... └── ...

原始版本包含487小时27分钟59秒的音频文件。