five

PedroDKE/LibriS2S

收藏
Hugging Face2023-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PedroDKE/LibriS2S
下载链接
链接失效反馈
官方服务:
资源简介:
LibriS2S是一个用于德语和英语之间语音到语音翻译研究的数据集,包含德语音频、德语转录、英语音频和英语转录的四元组。该数据集基于librivoxDeEn数据集构建,使用了aeneas工具进行对齐。数据集的文件结构包括对齐数据、德语和英语音频文件夹、示例文件夹以及基础对齐数据文件夹。数据集的总大小约为52GB,适用于文本到语音、自动语音识别和翻译等任务。
提供机构:
PedroDKE
原始信息汇总

数据集概述

名称: LibriS2S German-English Speech and Text pairs

语言:

  • 英语 (en)
  • 德语 (de)

多语言性: 多语言

许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (cc-by-nc-sa-4.0)

大小: 10K<n<100K

任务类别:

  • 文本到语音 (text-to-speech)
  • 自动语音识别 (automatic-speech-recognition)
  • 翻译 (translation)

数据结构:

  • Alignments: 包含所有书籍和章节的校准数据。
  • DE: 包含每本书的德语音频。
  • EN: 包含每本书的英语音频。
  • Example: 包含用于构建此数据集的抓取和校准解释的示例文件。
  • LibrivoxDeEn_alignments: 包含LibrivoxDeEn数据集的基础校准数据。

数据下载:

  • 英语/德语音频可在EN/DE文件夹中找到,并可从此OneDrive链接下载。

数据集大小: 约52 GB

引用:

  • 当使用此数据集时,请引用原始论文和LibrivoxDeEn作者。

数据集详细信息

数据收集方法:

  • 通过下载英语有声读物并使用aeneas将书籍章节与转录文本对齐来收集校准数据。

包含的书籍:

校准指标:

  • 文件数量: 德国语18868个,英语18868个
  • 总时长: 德语39:11:08,英语40:52:31
  • 发言人数量: 德语41人,英语22人

注意: 发言人数是按每本书单独计算的,因此某些发言人可能被计数多次。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作