MLCommons/peoples_speech
收藏数据集卡片 for Peoples Speech
数据集描述
数据集摘要
Peoples Speech 数据集是当今世界上最大的英语语音识别语料库之一,适用于学术和商业用途,采用 CC-BY-SA 和 CC-BY 4.0 许可。它包含超过 30,000 小时的英语转录语音,涵盖多样化的说话者。这个开放数据集足够大,可以用于训练语音到文本系统,并且关键的是,它具有宽松的许可。
支持的任务和排行榜
[需要更多信息]
语言
英语
数据集结构
数据实例
json { "id": "gov_DOT_uscourts_DOT_scotus_DOT_19-161/gov_DOT_uscourts_DOT_scotus_DOT_19-161_DOT_2020-03-02_DOT_mp3_00002.flac", "audio": { "path": "gov_DOT_uscourts_DOT_scotus_DOT_19-161/gov_DOT_uscourts_DOT_scotus_DOT_19-161_DOT_2020-03-02_DOT_mp3_00002.flac", "array": array([-6.10351562e-05, ...]), "sampling_rate": 16000 }, "duration_ms": 14490, "text": "contends that the suspension clause requires a [...]" }
数据字段
json { "id": datasets.Value("string"), "audio": datasets.Audio(sampling_rate=16_000), "duration_ms": datasets.Value("int32"), "text": datasets.Value("string"), }
数据分割
我们为数据集提供了以下配置:cc-by-clean、cc-by-dirty、cc-by-sa-clean、cc-by-sa-dirty 和 microset。我们不为任何配置提供分割。
数据集创建
策划理由
参见我们的论文。
源数据
初始数据收集和规范化
数据通过 archive.org API 下载。没有进行数据推断。
源语言生产者是谁?
[需要更多信息]
注释
注释过程
没有进行手动注释。我们只下载已经存在转录的源音频。
注释者是谁?
对于测试和开发集,我们聘请了母语为美国英语的人进行转录。我们不知道训练集中转录者的身份。对于训练集,我们注意到一些转录很可能是自动语音识别系统的输出。
个人和敏感信息
我们的多个来源是法律和政府程序、口述历史、演讲等。鉴于这些文件旨在作为公共文档并以此许可,自然而然地,相关个人是知晓这一点的。
使用数据集的注意事项
数据集的社会影响
该数据集可用于语音合成。然而,这需要仔细清理数据集,因为背景噪音对于语音合成是不可容忍的。
该数据集也可用于关键词发现任务。特别是,这对于数据集中非英语音频是一个很好的用例。
我们真诚地希望,我们数据集所包含的大量来源能够减少当今存在的质量服务问题,例如语音识别系统对非母语英语口音的理解不佳。目前,我们无法想到使用此数据集会带来任何不公平的待遇。
偏见的讨论
我们的数据从 archive.org 下载。因此,数据偏向于用户决定上传到那里的内容。
几乎所有数据都是美国口音的英语。
其他已知限制
截至 1.0 版本,训练集、测试集和开发集中的一部分数据对齐不佳。具体来说,一些单词出现在转录中,但没有出现在音频中,或者一些单词出现在音频中,但没有出现在转录中。我们正在努力解决这个问题。
附加信息
数据集策展人
[需要更多信息]
许可信息
我们提供了 CC-BY 和 CC-BY-SA 子集的数据集。
引用信息
请引用:
@article{DBLP:journals/corr/abs-2111-09344, author = {Daniel Galvez and Greg Diamos and Juan Ciro and Juan Felipe Cer{{o}}n and Keith Achorn and Anjali Gopi and David Kanter and Maximilian Lam and Mark Mazumder and Vijay Janapa Reddi}, title = {The Peoples Speech: {A} Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage}, journal = {CoRR}, volume = {abs/2111.09344}, year = {2021}, url = {https://arxiv.org/abs/2111.09344}, eprinttype = {arXiv}, eprint = {2111.09344}, timestamp = {Mon, 22 Nov 2021 16:44:07 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2111-09344.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }




