Nexdata/accented_mandarin
收藏Hugging Face2023-11-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/accented_mandarin
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2000小时的普通话语音数据,采集自中国26个省份(如河南、山西、四川、湖南、福建等)的本地说话者。内容涵盖通用类别、人机交互、智能家居命令和控制、车载、数字等。数据格式为16kHz、16bit、未压缩的wav单声道文件,句子准确率超过97%。数据集可用于自动语音识别(ASR)和音频说话人识别任务。
This dataset contains 2000 hours of Mandarin speech data, collected from local speakers across 26 provinces in China including Henan, Shanxi, Sichuan, Hunan, Fujian and other regions. The covered content spans general categories, human-computer interaction, smart home commands and control, in-vehicle scenarios, digital scenarios and more. The data is stored as uncompressed mono WAV files with a sampling rate of 16 kHz and a bit depth of 16 bits, with a sentence-level accuracy rate exceeding 97%. This dataset can be used for automatic speech recognition (ASR) and audio speaker recognition tasks.
提供机构:
Nexdata
原始信息汇总
数据集概述
数据集名称
accented_mandarin
数据集描述
数据集总结
- 大小: 包含2,000小时的普通话中文语音数据。
- 来源: 数据收集自中国26个省份的本地发言人,如河南、山西、四川、湖南、福建等。
- 内容: 涵盖通用类别、人机交互、智能家居命令和控制、车载、数字等。
- 格式: 16kHz, 16bit, 未压缩wav格式,单声道。
- 准确率: 句子准确率超过97%。
支持的任务和排行榜
- 任务: 自动语音识别(ASR)、音频发言人识别。
语言
- 语言: 带口音的普通话
数据集结构
数据实例
- 信息: 待补充
数据字段
- 信息: 待补充
数据分割
- 信息: 待补充
数据集创建
来源数据
- 初始数据收集和标准化: 待补充
- 源语言生产者: 待补充
注释
- 注释过程: 待补充
- 注释者: 待补充
个人和敏感信息
- 信息: 待补充
使用数据的考虑
数据集的社会影响
- 信息: 待补充
偏见的讨论
- 信息: 待补充
其他已知限制
- 信息: 待补充
附加信息
数据集管理者
- 信息: 待补充
许可信息
- 许可类型: 商业许可
引用信息
- 信息: 待补充
贡献
- 信息: 待补充
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



