Nexdata/205_People_Mandarin_Speech_Data_in_Noisy_Environment_by_Mobile_Phone_Guiding
收藏Hugging Face2024-04-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/205_People_Mandarin_Speech_Data_in_Noisy_Environment_by_Mobile_Phone_Guiding
下载链接
链接失效反馈官方服务:
资源简介:
205人在嘈杂环境中录制的带有口音的普通话语音数据,涵盖了车内场景、智能家居、智能语音助手等多种日常场景。该数据集可用于语音识别声学语言模型训练和算法研究、机器翻译语料库构建、声纹识别模型训练和算法研究。录音格式为16kHz、16bit、未压缩的wav单声道文件,录制环境包括地铁、市场、餐厅、街道、机场等嘈杂环境。说话者包括205人,其中58%为男性,使用Android手机和iPhone进行录制,语言为普通话(无重地方口音),转录内容包括文本和噪声符号,准确率为95%(不包括噪声符号的准确率)。应用场景包括语音识别和声纹识别。
205人在嘈杂环境中录制的带有口音的普通话语音数据,涵盖了车内场景、智能家居、智能语音助手等多种日常场景。该数据集可用于语音识别声学语言模型训练和算法研究、机器翻译语料库构建、声纹识别模型训练和算法研究。录音格式为16kHz、16bit、未压缩的wav单声道文件,录制环境包括地铁、市场、餐厅、街道、机场等嘈杂环境。说话者包括205人,其中58%为男性,使用Android手机和iPhone进行录制,语言为普通话(无重地方口音),转录内容包括文本和噪声符号,准确率为95%(不包括噪声符号的准确率)。应用场景包括语音识别和声纹识别。
提供机构:
Nexdata
原始信息汇总
数据集概述
描述
- 名称:205 People Accent Mandarin Speech Data in Noise Environment
- 内容:由205位说话者在各种日常噪声环境中使用带有口音的普通话进行录音。涵盖场景包括车内、智能家居、智能语音助手等。
- 用途:适用于语音识别声学语言模型训练、算法研究、机器翻译语料库构建、声纹识别模型训练及算法研究。
格式
- 音频:16kHz, 16bit, 单声道, 未压缩wav格式
录音环境
- 环境:地铁、市场、餐厅、街道、机场等噪声环境
录音内容
- 场景:智能汽车、智能家居、语音助手
说话者
- 人数:205人
- 性别比例:58%为男性
设备
- 录音工具:Android手机、iPhone
语言
- 语种:普通话(无明显地方口音)
转录内容
- 内容:文本、噪声符号
准确率
- 文本准确率:95%(噪声符号准确率未包含)
应用场景
- 主要应用:语音识别、声纹识别
许可证
- 类型:商业许可证



