five

Nexdata/300_Person_Mandarin_Chinese_and_English_Bilingual_Spontaneous_Monologue_smartphone

收藏
Hugging Face2024-04-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/300_Person_Mandarin_Chinese_and_English_Bilingual_Spontaneous_Monologue_smartphone
下载链接
链接失效反馈
官方服务:
资源简介:
普通话和英语双语自发性独白智能手机语音数据集,收集自基于给定主题的对话,覆盖通用领域。数据集从广泛且多样化的说话者中收集(总共300人,年龄从18到65岁),地理分布广泛,增强了模型在真实和复杂任务中的表现。数据集的质量经过了多家AI公司的测试,并且严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益。数据集符合GDPR、CCPA、PIPL等法规。

普通话和英语双语自发性独白智能手机语音数据集,收集自基于给定主题的对话,覆盖通用领域。数据集从广泛且多样化的说话者中收集(总共300人,年龄从18到65岁),地理分布广泛,增强了模型在真实和复杂任务中的表现。数据集的质量经过了多家AI公司的测试,并且严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益。数据集符合GDPR、CCPA、PIPL等法规。
提供机构:
Nexdata
原始信息汇总

数据集概述

数据集描述

本数据集为普通话中文与英语双语自发独白智能手机语音数据集,基于特定话题的对话收集而成,涵盖通用领域。数据集由300名年龄在18至65岁之间的多样化演讲者提供,旨在提升模型在真实复杂任务中的性能。数据质量已通过多家AI公司的测试。严格遵守数据保护法规和隐私标准,确保用户隐私和法律权利在数据收集、存储和使用过程中的维护,符合GDPR、CCPA、PIPL标准。

数据集格式

  • 采样率:16kHz
  • 位深度:16 bit
  • 文件格式:wav
  • 声道:单声道

内容类别

每位演讲者自然发言,无特定内容限制。每位演讲者在每种语言中录制20个音频文件(每人共40个录音),每个录音时长约10-20秒。

录音条件

  • 环境:安静的室内环境
  • 条件:无回声、背景声、明显噪音

录音设备

  • 设备:Android手机

演讲者信息

  • 总数:300人
  • 性别比例:男性40%,女性60%
  • 年龄分布:18-37岁占83%,38-45岁占15%,46-65岁占2%

国家

  • 来源国:中国(CHN)

语言

  • 包含语言:普通话中文、英语

许可信息

  • 许可类型:商业许可
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作