Nexdata/300_Person_Mandarin_Chinese_and_English_Bilingual_Spontaneous_Monologue_smartphone
收藏Hugging Face2024-04-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/300_Person_Mandarin_Chinese_and_English_Bilingual_Spontaneous_Monologue_smartphone
下载链接
链接失效反馈官方服务:
资源简介:
普通话和英语双语自发性独白智能手机语音数据集,收集自基于给定主题的对话,覆盖通用领域。数据集从广泛且多样化的说话者中收集(总共300人,年龄从18到65岁),地理分布广泛,增强了模型在真实和复杂任务中的表现。数据集的质量经过了多家AI公司的测试,并且严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益。数据集符合GDPR、CCPA、PIPL等法规。
普通话和英语双语自发性独白智能手机语音数据集,收集自基于给定主题的对话,覆盖通用领域。数据集从广泛且多样化的说话者中收集(总共300人,年龄从18到65岁),地理分布广泛,增强了模型在真实和复杂任务中的表现。数据集的质量经过了多家AI公司的测试,并且严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益。数据集符合GDPR、CCPA、PIPL等法规。
提供机构:
Nexdata
原始信息汇总
数据集概述
数据集描述
本数据集为普通话中文与英语双语自发独白智能手机语音数据集,基于特定话题的对话收集而成,涵盖通用领域。数据集由300名年龄在18至65岁之间的多样化演讲者提供,旨在提升模型在真实复杂任务中的性能。数据质量已通过多家AI公司的测试。严格遵守数据保护法规和隐私标准,确保用户隐私和法律权利在数据收集、存储和使用过程中的维护,符合GDPR、CCPA、PIPL标准。
数据集格式
- 采样率:16kHz
- 位深度:16 bit
- 文件格式:wav
- 声道:单声道
内容类别
每位演讲者自然发言,无特定内容限制。每位演讲者在每种语言中录制20个音频文件(每人共40个录音),每个录音时长约10-20秒。
录音条件
- 环境:安静的室内环境
- 条件:无回声、背景声、明显噪音
录音设备
- 设备:Android手机
演讲者信息
- 总数:300人
- 性别比例:男性40%,女性60%
- 年龄分布:18-37岁占83%,38-45岁占15%,46-65岁占2%
国家
- 来源国:中国(CHN)
语言
- 包含语言:普通话中文、英语
许可信息
- 许可类型:商业许可



