MLCommons/peoples_speech_v1.0

Name: MLCommons/peoples_speech_v1.0
Creator: MLCommons
Published: 2024-08-25 05:17:08
License: 暂无描述

Hugging Face2024-08-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/MLCommons/peoples_speech_v1.0

下载链接

链接失效反馈

官方服务：

资源简介：

Peoples Speech数据集是目前世界上最大的英语语音识别语料库之一，适用于学术和商业用途，采用CC-BY-SA和CC-BY 4.0许可证。该数据集包含超过30,000小时的英语语音转录，涵盖了多样化的说话者。这个开放数据集足够大，可以用于训练语音到文本系统，并且具有宽松的许可证。数据集的结构包括音频文件、持续时间、文本转录等信息，并且提供了不同的配置。数据集的创建过程涉及从archive.org API下载数据，并且部分数据可能来自自动语音识别系统的输出。

The Peoples Speech Dataset is one of the largest English speech recognition corpora globally, suitable for both academic and commercial applications, and licensed under CC-BY-SA and CC-BY 4.0. It contains over 30,000 hours of English speech transcripts with a diverse pool of speakers. This open-access dataset is sufficiently large for training speech-to-text systems and features permissive licensing terms. Its structure includes audio files, duration metadata, text transcripts and other relevant information, and provides multiple configuration options. The dataset construction process involves downloading data from the archive.org API, and a portion of the data may originate from outputs of automatic speech recognition (ASR) systems.

提供机构：

MLCommons

原始信息汇总

数据集概述

名称: Peoples Speech

语言: 英语

许可证:

cc-by-2.0
cc-by-2.5
cc-by-3.0
cc-by-4.0
cc-by-sa-3.0
cc-by-sa-4.0

多语言性: 单语

大小: 超过1TB

来源: 原始数据

任务类别:

自动语音识别
鲁棒语音识别
噪声环境下的语音识别

数据集结构

数据实例:

id: 字符串
audio: 音频文件，采样率为16000 Hz
duration_ms: 整数，表示音频时长（毫秒）
text: 字符串，音频的转录文本

数据字段:

id: 字符串类型
audio: 音频类型，采样率为16000 Hz
duration_ms: 整数类型
text: 字符串类型

数据分割: 提供多种配置，但不提供具体分割。

数据集创建

注释过程:

训练集数据可能包含自动语音识别系统的输出。
测试和开发集由付费的母语为美式英语的转录员进行转录。

个人和敏感信息:

数据集包含来自法律和政府程序、演讲等公开文档，相关个人应已知其公开性。

使用数据集的考虑

社会影响:

可用于语音合成和关键词检测任务。
数据集的广泛来源有助于减少现有服务质量问题，如对非母语英语口音的理解不足。

偏见讨论:

数据主要来自archive.org，受用户上传内容的影响。
数据主要为美式英语口音。

其他已知限制:

部分数据在训练、测试和开发集中存在对齐不良问题，正在解决中。

搜集汇总

数据集介绍

背景与挑战

背景概述

People's Speech数据集是一个包含30,000+小时英语转录语音的大规模语料库，适用于自动语音识别任务，支持学术和商业用途，许可证为CC-BY和CC-BY-SA。数据集包含多样化的说话者和多种配置，如'cc-by-clean'和'cc-by-dirty'。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集