five

ReDUB/SoundHarvest

收藏
Hugging Face2023-12-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ReDUB/SoundHarvest
下载链接
链接失效反馈
官方服务:
资源简介:
SoundHarvest数据集是一个多语言音频和字幕数据集,主要用于翻译和音频到音频的任务。数据集支持多种语言,包括阿拉伯语、西班牙语、法语、印地语、印度尼西亚语、日语、韩语、葡萄牙语、俄语、泰语、土耳其语、越南语和英语。数据集的结构包括音频文件和字幕文件,原始版本包含487小时27分钟59秒的音频文件。使用限制包括版权问题和数据准确性。数据集可以用于自动语音识别、多语言自然语言处理、语言学研究以及语音到语音的翻译。

SoundHarvest数据集是一个多语言音频和字幕数据集,主要用于翻译和音频到音频的任务。数据集支持多种语言,包括阿拉伯语、西班牙语、法语、印地语、印度尼西亚语、日语、韩语、葡萄牙语、俄语、泰语、土耳其语、越南语和英语。数据集的结构包括音频文件和字幕文件,原始版本包含487小时27分钟59秒的音频文件。使用限制包括版权问题和数据准确性。数据集可以用于自动语音识别、多语言自然语言处理、语言学研究以及语音到语音的翻译。
提供机构:
ReDUB
原始信息汇总

数据集概述

基本信息

  • 许可: other
  • 任务类别:
    • 翻译
    • 音频到音频
  • 语言:
    • 阿拉伯语 (ar)
    • 西班牙语 (es)
    • 法语 (fr)
    • 印地语 (hi)
    • 印度尼西亚语 (id)
    • 日语 (ja)
    • 韩语 (ko)
    • 葡萄牙语 (pt)
    • 俄语 (ru)
    • 泰语 (th)
    • 土耳其语 (tr)
    • 越南语 (vi)
    • 英语 (en)
  • 标签: speech2speech
  • 名称: SoundHarvest
  • 规模: 1K<n<10K

数据格式

数据集的结构如下: yaml dataset/ ├── video_id_1/ │ ├── audio_language_1.wav │ ├── audio_language_2.wav │ ├── subtitle_language_1.vtt │ ├── subtitle_language_2.vtt │ └── unmatched/ │ └── ... ├── video_id_2/ │ ├── ... └── ...

原始版本包含487小时27分钟59秒的音频文件。

局限性

  • 版权: 使用此数据集时请注意版权限制,确保您有必要的权限。
  • 不准确性: 尽管已努力准确对齐音频和字幕,但数据集中可能偶尔存在不匹配或不准确的情况。建议验证数据的质量和对齐情况。

生成数据集

生成数据集的步骤:

  1. 运行 generate_urls.py 生成基于 channel_urls.txt 的视频URL。
  2. 运行 generate_dataset.py 生成数据集(可能需要大量时间)。
  3. 运行 polish_dataset.py 清理没有有用数据的文件夹。

应用

SoundHarvest数据集可用于多种应用:

  1. 自动语音识别 (ASR): 训练ASR模型将口语转换为文本,提供多语言样本。
  2. 多语言自然语言处理 (NLP): 用于多语言NLP任务,如语音情感分析和语言识别。
  3. 语言学研究和分析: 进行语言学研究,探索语言的各个方面,如音韵、方言和语言演变。
  4. 语音到语音翻译: 使用数据集开发和评估语音到语音翻译模型,实现跨语言交流。

致谢

感谢YouTube内容创作者提供宝贵的多语言音频内容,使此数据集成为可能。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作