Nexdata/157_Hours_Uyghur_Conversational_Speech_Data_by_Microphone

Name: Nexdata/157_Hours_Uyghur_Conversational_Speech_Data_by_Microphone
Creator: Nexdata
Published: 2024-04-16 01:53:20
License: 暂无描述

Hugging Face2024-04-16 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Nexdata/157_Hours_Uyghur_Conversational_Speech_Data_by_Microphone

下载链接

链接失效反馈

官方服务：

资源简介：

Uyghur自发对话麦克风语音数据集，收集自基于给定主题的对话，覆盖20多个领域。数据集包含文本内容、说话者ID、性别、年龄等属性的转录。数据来自326名母语者，地理分布广泛，增强了模型在真实和复杂任务中的性能。数据集经过多家AI公司的质量测试，并严格遵守数据保护法规和隐私标准，确保在数据收集、存储和使用过程中维护用户隐私和合法权益，符合GDPR、CCPA、PIPL等法规。

提供机构：

Nexdata

原始信息汇总

数据集概述

基本信息

数据集名称：Uyghur Spontaneous Dialogue Microphone speech dataset
许可证：cc-by-nc-nd-4.0
内容类别：基于给定话题的对话
录制条件：低背景噪声（室内）
录制设备：麦克风
国家：中国(CHN)
语言：Uyghur
语言(地区)代码：ug-CN

数据集详情

采样率与格式：48kHz, 16 bit, wav, 单声道
说话人信息：共326名母语说话人，其中37%为男性，63%为女性
注释特征：转录文本、时间戳、说话人ID、性别、噪声、个人身份信息已删除
准确率：句子准确率(SAR)为95%

数据集收集与处理

数据收集：涵盖超过20个领域的对话，由326名多样化母语说话人参与，地理分布广泛
数据保护：严格遵守数据保护法规和隐私标准，符合GDPR、CCPA、PIPL等规定，确保用户隐私和法律权利
质量测试：经过多家AI公司的质量测试

5,000+

优质数据集

54 个

任务类型

进入经典数据集