Nexdata/143_Hours_Uyghur_Conversational_Speech_Data_by_Telephone

Name: Nexdata/143_Hours_Uyghur_Conversational_Speech_Data_by_Telephone
Creator: Nexdata
Published: 2024-04-16 01:49:34
License: 暂无描述

Hugging Face2024-04-16 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Nexdata/143_Hours_Uyghur_Conversational_Speech_Data_by_Telephone

下载链接

链接失效反馈

官方服务：

资源简介：

Uyghur(China) Spontaneous Dialogue Telephony语音数据集，收集自基于给定主题的对话，涵盖20多个领域。数据集包含文本内容、说话者ID、性别、年龄等属性的转录。数据集由320名母语者参与，地理分布广泛，以提高模型在真实和复杂任务中的表现。数据集的质量经过了多家AI公司的测试，并且在数据收集、存储和使用过程中严格遵守数据保护法规和隐私标准，确保用户隐私和合法权益的维护。

提供机构：

Nexdata

原始信息汇总

数据集概述

数据集名称

Uyghur(China) Spontaneous Dialogue Telephony speech dataset

数据集描述

该数据集包含基于特定主题的对话，涵盖20多个领域。数据由320名母语为Uyghur的演讲者提供，其中男性占37%，女性占63%。数据集经过转录，包含文本内容、说话者ID、性别、年龄等属性。数据收集严格遵守数据保护法规和隐私标准，符合GDPR、CCPA、PIPL等规定。

数据集格式

采样率：8kHz
位深度：8bit
编码：u-law pcm
声道：单声道

内容类别

基于特定主题的对话

录音条件

低背景噪声（室内）

录音设备

电话

语言信息

语言：Uyghur
地区代码：ug-CN

标注特征

转录文本、时间戳、说话者ID、性别、噪声、个人识别信息（PII）已删除

准确率

句子准确率（SAR）：95%

许可证信息

商业许可证

5,000+

优质数据集

54 个

任务类型

进入经典数据集