ReDUB/SoundHarvest
收藏Hugging Face2023-12-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ReDUB/SoundHarvest
下载链接
链接失效反馈官方服务:
资源简介:
SoundHarvest数据集是一个多语言音频和字幕数据集,主要用于翻译和音频到音频的任务。数据集支持多种语言,包括阿拉伯语、西班牙语、法语、印地语、印度尼西亚语、日语、韩语、葡萄牙语、俄语、泰语、土耳其语、越南语和英语。数据集的结构包括音频文件和字幕文件,原始版本包含487小时27分钟59秒的音频文件。使用限制包括版权问题和数据准确性。数据集可以用于自动语音识别、多语言自然语言处理、语言学研究以及语音到语音的翻译。
SoundHarvest数据集是一个多语言音频和字幕数据集,主要用于翻译和音频到音频的任务。数据集支持多种语言,包括阿拉伯语、西班牙语、法语、印地语、印度尼西亚语、日语、韩语、葡萄牙语、俄语、泰语、土耳其语、越南语和英语。数据集的结构包括音频文件和字幕文件,原始版本包含487小时27分钟59秒的音频文件。使用限制包括版权问题和数据准确性。数据集可以用于自动语音识别、多语言自然语言处理、语言学研究以及语音到语音的翻译。
提供机构:
ReDUB
原始信息汇总
数据集概述
基本信息
- 许可: other
- 任务类别:
- 翻译
- 音频到音频
- 语言:
- 阿拉伯语 (ar)
- 西班牙语 (es)
- 法语 (fr)
- 印地语 (hi)
- 印度尼西亚语 (id)
- 日语 (ja)
- 韩语 (ko)
- 葡萄牙语 (pt)
- 俄语 (ru)
- 泰语 (th)
- 土耳其语 (tr)
- 越南语 (vi)
- 英语 (en)
- 标签: speech2speech
- 名称: SoundHarvest
- 规模: 1K<n<10K
数据格式
数据集的结构如下: yaml dataset/ ├── video_id_1/ │ ├── audio_language_1.wav │ ├── audio_language_2.wav │ ├── subtitle_language_1.vtt │ ├── subtitle_language_2.vtt │ └── unmatched/ │ └── ... ├── video_id_2/ │ ├── ... └── ...
原始版本包含487小时27分钟59秒的音频文件。
局限性
- 版权: 使用此数据集时请注意版权限制,确保您有必要的权限。
- 不准确性: 尽管已努力准确对齐音频和字幕,但数据集中可能偶尔存在不匹配或不准确的情况。建议验证数据的质量和对齐情况。
生成数据集
生成数据集的步骤:
- 运行
generate_urls.py生成基于channel_urls.txt的视频URL。 - 运行
generate_dataset.py生成数据集(可能需要大量时间)。 - 运行
polish_dataset.py清理没有有用数据的文件夹。
应用
SoundHarvest数据集可用于多种应用:
- 自动语音识别 (ASR): 训练ASR模型将口语转换为文本,提供多语言样本。
- 多语言自然语言处理 (NLP): 用于多语言NLP任务,如语音情感分析和语言识别。
- 语言学研究和分析: 进行语言学研究,探索语言的各个方面,如音韵、方言和语言演变。
- 语音到语音翻译: 使用数据集开发和评估语音到语音翻译模型,实现跨语言交流。
致谢
感谢YouTube内容创作者提供宝贵的多语言音频内容,使此数据集成为可能。



