five

Nexdata/157_Hours_Uyghur_Conversational_Speech_Data_by_Microphone

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/157_Hours_Uyghur_Conversational_Speech_Data_by_Microphone
下载链接
链接失效反馈
官方服务:
资源简介:
Uyghur自发对话麦克风语音数据集,收集自基于给定主题的对话,覆盖20多个领域。数据集包含文本内容、说话者ID、性别、年龄等属性的转录。数据来自326名母语者,地理分布广泛,增强了模型在真实和复杂任务中的性能。数据集经过多家AI公司的质量测试,并严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益,符合GDPR、CCPA、PIPL等法规。

Uyghur自发对话麦克风语音数据集,收集自基于给定主题的对话,覆盖20多个领域。数据集包含文本内容、说话者ID、性别、年龄等属性的转录。数据来自326名母语者,地理分布广泛,增强了模型在真实和复杂任务中的性能。数据集经过多家AI公司的质量测试,并严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益,符合GDPR、CCPA、PIPL等法规。
提供机构:
Nexdata
原始信息汇总

数据集概述

基本信息

  • 数据集名称:Uyghur Spontaneous Dialogue Microphone speech dataset
  • 许可证:cc-by-nc-nd-4.0
  • 内容类别:基于给定话题的对话
  • 录制条件:低背景噪声(室内)
  • 录制设备:麦克风
  • 国家:中国(CHN)
  • 语言:Uyghur
  • 语言(地区)代码:ug-CN

数据集详情

  • 采样率与格式:48kHz, 16 bit, wav, 单声道
  • 说话人信息:共326名母语说话人,其中37%为男性,63%为女性
  • 注释特征:转录文本、时间戳、说话人ID、性别、噪声、个人身份信息已删除
  • 准确率:句子准确率(SAR)为95%

数据集收集与处理

  • 数据收集:涵盖超过20个领域的对话,由326名多样化母语说话人参与,地理分布广泛
  • 数据保护:严格遵守数据保护法规和隐私标准,符合GDPR、CCPA、PIPL等规定,确保用户隐私和法律权利
  • 质量测试:经过多家AI公司的质量测试
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作