Nexdata/300_Person_Mandarin_Chinese_and_English_Bilingual_Spontaneous_Monologue_smartphone

Name: Nexdata/300_Person_Mandarin_Chinese_and_English_Bilingual_Spontaneous_Monologue_smartphone
Creator: Nexdata
Published: 2024-04-12 02:21:18
License: 暂无描述

Hugging Face2024-04-12 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Nexdata/300_Person_Mandarin_Chinese_and_English_Bilingual_Spontaneous_Monologue_smartphone

下载链接

链接失效反馈

官方服务：

资源简介：

普通话和英语双语自发性独白智能手机语音数据集，收集自基于给定主题的对话，覆盖通用领域。数据集从广泛且多样化的说话者中收集（总共300人，年龄从18到65岁），地理分布广泛，增强了模型在真实和复杂任务中的表现。数据集的质量经过了多家AI公司的测试，并且严格遵守数据保护法规和隐私标准，确保在数据收集、存储和使用过程中维护用户隐私和合法权益。数据集符合GDPR、CCPA、PIPL等法规。

提供机构：

Nexdata

原始信息汇总

数据集概述

数据集描述

本数据集为普通话中文与英语双语自发独白智能手机语音数据集，基于特定话题的对话收集而成，涵盖通用领域。数据集由300名年龄在18至65岁之间的多样化演讲者提供，旨在提升模型在真实复杂任务中的性能。数据质量已通过多家AI公司的测试。严格遵守数据保护法规和隐私标准，确保用户隐私和法律权利在数据收集、存储和使用过程中的维护，符合GDPR、CCPA、PIPL标准。

数据集格式

采样率：16kHz
位深度：16 bit
文件格式：wav
声道：单声道

内容类别

每位演讲者自然发言，无特定内容限制。每位演讲者在每种语言中录制20个音频文件（每人共40个录音），每个录音时长约10-20秒。

录音条件

环境：安静的室内环境
条件：无回声、背景声、明显噪音

录音设备

设备：Android手机

演讲者信息

总数：300人
性别比例：男性40%，女性60%
年龄分布：18-37岁占83%，38-45岁占15%，46-65岁占2%

国家

来源国：中国（CHN）

语言

包含语言：普通话中文、英语

许可信息

许可类型：商业许可

5,000+

优质数据集

54 个

任务类型

进入经典数据集