five

parler-tts/mls_eng

收藏
Hugging Face2024-04-09 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/parler-tts/mls_eng
下载链接
链接失效反馈
官方服务:
资源简介:
这是Multilingual LibriSpeech (MLS)数据集的英文版本,主要用于语音研究。数据集来源于LibriVox的有声读物,包含8种语言,其中英语部分包含约44.5K小时的音频数据。数据集支持自动语音识别(ASR)、说话人识别、文本到语音(TTS)等任务。数据集的结构包括音频文件、转录文本、说话人ID等信息,并且提供了训练集、开发集和测试集的划分。

这是Multilingual LibriSpeech (MLS)数据集的英文版本,主要用于语音研究。数据集来源于LibriVox的有声读物,包含8种语言,其中英语部分包含约44.5K小时的音频数据。数据集支持自动语音识别(ASR)、说话人识别、文本到语音(TTS)等任务。数据集的结构包括音频文件、转录文本、说话人ID等信息,并且提供了训练集、开发集和测试集的划分。
提供机构:
parler-tts
原始信息汇总

数据集概述

  • 名称: English MLS
  • 语言: 英语 (en)
  • 许可证: CC-BY-4.0
  • 多语言性: 多语言
  • 任务类别:
    • 自动语音识别 (automatic-speech-recognition)
    • 文本到语音 (text-to-speech)
    • 文本到音频 (text-to-audio)
  • 数据集大小:
    • 下载大小: 705179367357字节
    • 数据集大小: 708074540946.909字节
    • 训练集: 10808037个样本, 707578913096字节
    • 验证集: 3807个样本, 249688889.909字节
    • 测试集: 3769个样本, 245938961字节

数据集结构

  • 数据实例:
    • 音频文件 (audio)
    • 原始路径 (original_path)
    • 开始时间 (begin_time)
    • 结束时间 (end_time)
    • 转录文本 (transcript)
    • 音频时长 (audio_duration)
    • 说话人ID (speaker_id)
    • 书籍ID (book_id)

数据集创建

  • 注释创建者: 专家生成
  • 语言创建者: 众包, 专家生成
  • 源数据: 原始数据

数据字段

  • 音频: 音频文件名, 解码音频数组, 采样率
  • 文本: 音频文件的转录
  • ID: 数据样本的唯一ID
  • 说话人ID: 说话人的唯一ID
  • 章节ID: 包含转录的有声读物章节的ID
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作