MLCommons/ml_spoken_words
收藏数据集概述
名称: Multilingual Spoken Words
描述: 这是一个包含50种语言的音频数据集,主要用于学术研究和商业应用中的关键词检测和口语搜索。该数据集包含超过340,000个关键词,总计23.4百万个1秒的口语例子(超过6,000小时)。数据集支持多种语言,并提供两种音频格式:wav (16KHz) 和 opus (48KHz)。
语言: 支持的语言包括但不限于阿拉伯语、阿萨姆语、布列塔尼语、加泰罗尼亚语、汉语、捷克语、荷兰语、英语、法语、德语、希腊语、印地语、意大利语、日语、韩语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、土耳其语、乌克兰语、越南语等。
许可证: CC-BY 4.0
大小: 10M<n<100M
任务: 音频分类(关键词检测、口语搜索)
数据结构:
- 数据实例: 每个实例包含文件路径、有效性、语言、说话者ID、性别、关键词和音频信息(路径、音频数组、采样率)。
- 数据字段: 包括文件路径、样本有效性、语言、说话者ID、性别、关键词和音频信息。
- 数据分割: 每个语言的数据被分割为训练/验证/测试部分。
数据创建:
- 来源数据: 数据来源于Common Voice数据集。
- 注释: 注释过程为机器生成。
使用注意事项:
- 数据集包含在线捐赠的语音,用户同意不尝试确定说话者的身份。
贡献者: 感谢@polinaeterna添加此数据集。
引用信息:
@inproceedings{mazumder2021multilingual, title={Multilingual Spoken Words Corpus}, author={Mazumder, Mark and Chitlangia, Sharad and Banbury, Colby and Kang, Yiping and Ciro, Juan Manuel and Achorn, Keith and Galvez, Daniel and Sabini, Mark and Mattson, Peter and Kanter, David and others}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)}, year={2021} }




