PedroDKE/LibriS2S
收藏Hugging Face2023-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PedroDKE/LibriS2S
下载链接
链接失效反馈官方服务:
资源简介:
LibriS2S是一个用于德语和英语之间语音到语音翻译研究的数据集,包含德语音频、德语转录、英语音频和英语转录的四元组。该数据集基于librivoxDeEn数据集构建,使用了aeneas工具进行对齐。数据集的文件结构包括对齐数据、德语和英语音频文件夹、示例文件夹以及基础对齐数据文件夹。数据集的总大小约为52GB,适用于文本到语音、自动语音识别和翻译等任务。
提供机构:
PedroDKE
原始信息汇总
数据集概述
名称: LibriS2S German-English Speech and Text pairs
语言:
- 英语 (en)
- 德语 (de)
多语言性: 多语言
许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (cc-by-nc-sa-4.0)
大小: 10K<n<100K
任务类别:
- 文本到语音 (text-to-speech)
- 自动语音识别 (automatic-speech-recognition)
- 翻译 (translation)
数据结构:
- Alignments: 包含所有书籍和章节的校准数据。
- DE: 包含每本书的德语音频。
- EN: 包含每本书的英语音频。
- Example: 包含用于构建此数据集的抓取和校准解释的示例文件。
- LibrivoxDeEn_alignments: 包含LibrivoxDeEn数据集的基础校准数据。
数据下载:
- 英语/德语音频可在EN/DE文件夹中找到,并可从此OneDrive链接下载。
数据集大小: 约52 GB
引用:
- 当使用此数据集时,请引用原始论文和LibrivoxDeEn作者。
数据集详细信息
数据收集方法:
- 通过下载英语有声读物并使用aeneas将书籍章节与转录文本对齐来收集校准数据。
包含的书籍:
校准指标:
- 文件数量: 德国语18868个,英语18868个
- 总时长: 德语39:11:08,英语40:52:31
- 发言人数量: 德语41人,英语22人
注意: 发言人数是按每本书单独计算的,因此某些发言人可能被计数多次。



