Nexdata/176_Hours_Suzhou_Dialect_Speech_Data_by_Mobile_Phone|方言语音数据数据集|语音识别数据集

hugging_face2024-04-19 更新2024-06-12 收录

方言语音数据

语音识别

下载链接：

https://hf-mirror.com/datasets/Nexdata/176_Hours_Suzhou_Dialect_Speech_Data_by_Mobile_Phone

下载链接

链接失效反馈

资源简介：

该数据集收集自250名说话者，每人约500句苏州方言的口语句子。苏州本地员工参与了录音，以确保口音的真实性。录音内容为口语化和生活化的语言，阅读更为自然流畅。苏州本地人参与了问答和校对，文本转换更为准确。使用主流的Android和Apple系统手机进行录制。数据格式为16kHz, 16bit, 未压缩的wav文件，单声道。录制环境为安静的室内环境，无回声。数据集适用于语音识别和声纹识别等应用场景。

提供机构：

Nexdata

原始信息汇总

数据集概述

数据收集

来源：250位苏州方言使用者
内容：每人约500句口语句子
质量保证：由苏州当地人员参与录音，确保口音纯正；当地人员参与QA和校对，文本转录准确

数据格式

音频规格：16kHz, 16bit, 单声道，未压缩wav格式

录音环境

环境：安静的室内环境，无回声

录音内容

类型：口语

说话人信息

人数：250人
性别分布：52%为女性
来源：苏州

录音设备

设备：主流Android手机和iPhone

语言

方言：苏州方言

转录内容

内容：文本及噪音符号

准确率

文本准确率：95%（噪音符号准确率未包含）

应用场景

用途：语音识别，声纹识别

许可信息

许可类型：商业许可

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

5,000+

优质数据集

54 个

任务类型

进入经典数据集