MLCommons/unsupervised_peoples_speech
收藏数据集卡片:无监督人民语音数据集
数据集描述
数据集概述
无监督人民语音数据集是从Archive.org提取的音频文件集合,适用于学术和商业用途,遵循CC-BY和CC-BY-SA许可。该数据集包含超过一百万小时的音频,涵盖多样化的说话者。
相关统计数据
时长分布
大多数音频的时长在1到10分钟之间,仅有14个音频超过100小时。
采样率
99%的音频数据集采样率为44.1Khz,其余音频的采样率从常见的16Khz、24Khz和48Khz到自定义采样率不等。
数据集结构
音频文件夹
包含原始音频的文件夹。由于Hugging Face不支持单个目录中超过10,000个文件,因此我们将其分为两个目录。
数据集创建
源数据
初始数据收集和规范化
数据通过archive.org的API下载,未进行数据推断。
预处理
未进行预处理。
标注
标注过程
未进行手动标注,仅下载源音频。特别地,未进行“强制对齐”或“分割”处理。
个人和敏感信息
我们的部分来源包括法律和政府程序、口头故事、演讲等。鉴于这些文件旨在作为公开文档并获得相应许可,相关个人自然知晓这一点。
使用数据的注意事项
偏见讨论
我们的数据从archive.org下载,因此数据偏向于用户决定上传的内容。几乎所有数据都是美国口音的英语。
附加信息
许可信息
源数据包含CC-BY-SA和CC-BY许可下的数据。我们根据https://creativecommons.org/licenses/by-sa/4.0/许可此数据集。
引用信息
请引用以下内容:
@article{USP, author={Daniel Galvez and Ryan Hileman and Rafael Mosquera and Juan Ciro and Kurt Bollacker and Peter Mattson and David Kanter}, title = {Unsupervised Peoples Speech (The Million Hour Audio Dataset)}, year = {2023}, url = {https://huggingface.co/datasets/MLCommons/peoples_speech}, }



