five

Nexdata/205_People_Mandarin_Speech_Data_in_Noisy_Environment_by_Mobile_Phone_Guiding

收藏
Hugging Face2024-04-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/205_People_Mandarin_Speech_Data_in_Noisy_Environment_by_Mobile_Phone_Guiding
下载链接
链接失效反馈
官方服务:
资源简介:
205人在嘈杂环境中录制的带有口音的普通话语音数据,涵盖了车内场景、智能家居、智能语音助手等多种日常场景。该数据集可用于语音识别声学语言模型训练和算法研究、机器翻译语料库构建、声纹识别模型训练和算法研究。录音格式为16kHz、16bit、未压缩的wav单声道文件,录制环境包括地铁、市场、餐厅、街道、机场等嘈杂环境。说话者包括205人,其中58%为男性,使用Android手机和iPhone进行录制,语言为普通话(无重地方口音),转录内容包括文本和噪声符号,准确率为95%(不包括噪声符号的准确率)。应用场景包括语音识别和声纹识别。

205人在嘈杂环境中录制的带有口音的普通话语音数据,涵盖了车内场景、智能家居、智能语音助手等多种日常场景。该数据集可用于语音识别声学语言模型训练和算法研究、机器翻译语料库构建、声纹识别模型训练和算法研究。录音格式为16kHz、16bit、未压缩的wav单声道文件,录制环境包括地铁、市场、餐厅、街道、机场等嘈杂环境。说话者包括205人,其中58%为男性,使用Android手机和iPhone进行录制,语言为普通话(无重地方口音),转录内容包括文本和噪声符号,准确率为95%(不包括噪声符号的准确率)。应用场景包括语音识别和声纹识别。
提供机构:
Nexdata
原始信息汇总

数据集概述

描述

  • 名称:205 People Accent Mandarin Speech Data in Noise Environment
  • 内容:由205位说话者在各种日常噪声环境中使用带有口音的普通话进行录音。涵盖场景包括车内、智能家居、智能语音助手等。
  • 用途:适用于语音识别声学语言模型训练、算法研究、机器翻译语料库构建、声纹识别模型训练及算法研究。

格式

  • 音频:16kHz, 16bit, 单声道, 未压缩wav格式

录音环境

  • 环境:地铁、市场、餐厅、街道、机场等噪声环境

录音内容

  • 场景:智能汽车、智能家居、语音助手

说话者

  • 人数:205人
  • 性别比例:58%为男性

设备

  • 录音工具:Android手机、iPhone

语言

  • 语种:普通话(无明显地方口音)

转录内容

  • 内容:文本、噪声符号

准确率

  • 文本准确率:95%(噪声符号准确率未包含)

应用场景

  • 主要应用:语音识别、声纹识别

许可证

  • 类型:商业许可证
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作