five

Nexdata/377_Hours_Henan_Dialect_Conversational_Speech_Data_by_Mobile_Phone

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/377_Hours_Henan_Dialect_Conversational_Speech_Data_by_Mobile_Phone
下载链接
链接失效反馈
官方服务:
资源简介:
河南方言(中国)智能手机语音对话数据集,包含文本内容、时间戳、说话者ID、性别等属性的转录。数据集从广泛且多样化的说话者中收集,地理分布广泛,以提高模型在真实和复杂任务中的性能。数据集的质量经过了多家AI公司的测试,并且严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益。

河南方言(中国)智能手机语音对话数据集,包含文本内容、时间戳、说话者ID、性别等属性的转录。数据集从广泛且多样化的说话者中收集,地理分布广泛,以提高模型在真实和复杂任务中的性能。数据集的质量经过了多家AI公司的测试,并且严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益。
提供机构:
Nexdata
原始信息汇总

数据集概述

基本信息

  • 名称: Henan Dialect(China) Spontaneous Dialogue Smartphone speech dataset
  • 许可证: cc-by-nc-nd-4.0
  • 语言: Henan Dialect

数据集描述

  • 内容: 包含文本内容、时间戳、说话者ID、性别等属性的自发对话录音。
  • 收集: 来自广泛且多样化的说话者,地理位置广泛,用于提升模型在真实复杂任务中的性能。
  • 质量: 经过多家AI公司测试。
  • 隐私与合规: 严格遵守数据保护法规和隐私标准,符合GDPR、CCPA、PIPL。

技术规格

  • 格式: 16kHz, 16bit, uncompressed wav, mono channel
  • 环境: 安静的室内环境,无回声
  • 内容: 指定数十个话题,说话者在话题下进行对话并录音
  • 说话者: 762人
  • 注释特征: 文本转录、说话者识别和性别标注
  • 设备: Android智能手机、iPhone
  • 准确率: 句子准确率(SAR) 95%

许可证信息

  • 类型: 商业许可证
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作