five

Nexdata/143_Hours_Uyghur_Conversational_Speech_Data_by_Telephone

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/143_Hours_Uyghur_Conversational_Speech_Data_by_Telephone
下载链接
链接失效反馈
官方服务:
资源简介:
Uyghur(China) Spontaneous Dialogue Telephony语音数据集,收集自基于给定主题的对话,涵盖20多个领域。数据集包含文本内容、说话者ID、性别、年龄等属性的转录。数据集由320名母语者参与,地理分布广泛,以提高模型在真实和复杂任务中的表现。数据集的质量经过了多家AI公司的测试,并且在数据收集、存储和使用过程中严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益的维护。

Uyghur(China) Spontaneous Dialogue Telephony语音数据集,收集自基于给定主题的对话,涵盖20多个领域。数据集包含文本内容、说话者ID、性别、年龄等属性的转录。数据集由320名母语者参与,地理分布广泛,以提高模型在真实和复杂任务中的表现。数据集的质量经过了多家AI公司的测试,并且在数据收集、存储和使用过程中严格遵守数据保护法规和隐私标准,确保用户隐私和合法权益的维护。
提供机构:
Nexdata
原始信息汇总

数据集概述

数据集名称

Uyghur(China) Spontaneous Dialogue Telephony speech dataset

数据集描述

该数据集包含基于特定主题的对话,涵盖20多个领域。数据由320名母语为Uyghur的演讲者提供,其中男性占37%,女性占63%。数据集经过转录,包含文本内容、说话者ID、性别、年龄等属性。数据收集严格遵守数据保护法规和隐私标准,符合GDPR、CCPA、PIPL等规定。

数据集格式

  • 采样率:8kHz
  • 位深度:8bit
  • 编码:u-law pcm
  • 声道:单声道

内容类别

基于特定主题的对话

录音条件

低背景噪声(室内)

录音设备

电话

语言信息

  • 语言:Uyghur
  • 地区代码:ug-CN

标注特征

转录文本、时间戳、说话者ID、性别、噪声、个人识别信息(PII)已删除

准确率

句子准确率(SAR):95%

许可证信息

商业许可证

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作