Nexdata/302_Person_Hindi_and_English_Bilingual_Spontaneous_Monologue_smartphone_speech_dataset

Name: Nexdata/302_Person_Hindi_and_English_Bilingual_Spontaneous_Monologue_smartphone_speech_dataset
Creator: Nexdata
Published: 2024-04-12 02:47:46
License: 暂无描述

Hugging Face2024-04-12 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Nexdata/302_Person_Hindi_and_English_Bilingual_Spontaneous_Monologue_smartphone_speech_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

印地语和英语双语自发独白智能手机语音数据集，基于给定主题的对话收集，涵盖通用领域。数据集收集自广泛且多样化的说话者（共302人，年龄18至46岁），地理分布广泛，增强了模型在真实和复杂任务中的表现。数据集经过多家AI公司的质量测试，并严格遵守数据保护法规和隐私标准，确保用户隐私和合法权益在数据收集、存储和使用过程中的维护。数据集格式为16k Hz, 16 bit, wav, 单声道。内容包括个人自然说话，没有特定的内容限制。每个说话者每种语言录制20个音频（每人40个录音），每个录音持续约10-20秒。录制条件为安静的室内环境，无回声、背景声音或明显噪音。录制设备为Android手机和iPhone。参与者总数为302人，45%为男性，55%为女性。291名参与者年龄在18-37岁之间，10名在38-45岁之间，1名在46-65岁之间。国家为印度，语言为印地语和英语。许可信息为商业许可。

提供机构：

Nexdata

原始信息汇总

数据集概述

描述

类型：Hindi和English双语自发独白智能手机语音数据集
内容：基于给定话题的对话，涵盖通用领域
参与者：共302人，年龄18至46岁，性别分布为45%男性和55%女性
数据质量：经过多家AI公司质量测试
合规性：严格遵守数据保护法规和隐私标准，符合GDPR、CCPA、PIPL

格式

采样率：16kHz
位深度：16位
格式：wav，单声道

内容类别

内容限制：无特定内容限制
录音数量：每位演讲者录制20段音频，每种语言各20段，共40段录音
录音时长：每段录音约10-20秒

录音条件

环境：安静的室内环境，无回声、背景声和明显噪音

录音设备

设备：Android手机，iPhone

演讲者信息

总人数：302人
年龄分布：18-37岁291人，38-45岁10人，46-65岁1人

国家

来源国：印度(IND)

语言

支持语言：Hindi, English

许可信息

许可类型：商业许可

5,000+

优质数据集

54 个

任务类型

进入经典数据集