Nexdata/128_Hours_Australian_English_Child_Spontaneous_Speech_Data
收藏Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/128_Hours_Australian_English_Child_Spontaneous_Speech_Data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个关于澳大利亚儿童真实世界对话和独白语音的数据集,涵盖了自媒体、对话、直播、讲座、综艺节目等多种通用领域,反映了真实世界的互动。数据集包括文本内容、说话者ID、性别、年龄、口音等属性的转录。数据收集自广泛且多样化的12岁及以下儿童,地理上覆盖澳大利亚,旨在增强模型在真实和复杂任务中的表现。数据集经过多家AI公司的质量测试,并严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益。数据集符合GDPR、CCPA、PIPL等法规。
该数据集是一个关于澳大利亚儿童真实世界对话和独白语音的数据集,涵盖了自媒体、对话、直播、讲座、综艺节目等多种通用领域,反映了真实世界的互动。数据集包括文本内容、说话者ID、性别、年龄、口音等属性的转录。数据收集自广泛且多样化的12岁及以下儿童,地理上覆盖澳大利亚,旨在增强模型在真实和复杂任务中的表现。数据集经过多家AI公司的质量测试,并严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益。数据集符合GDPR、CCPA、PIPL等法规。
提供机构:
Nexdata
原始信息汇总
数据集概述
基本信息
- 名称: English(Australia) Children Real-world Casual Conversation and Monologue speech dataset
- 许可: cc-by-nc-nd-4.0
- 格式: 16kHz, 16 bit, wav, mono channel
- 年龄范围: 12岁及以下儿童
- 国家: 澳大利亚(AU)
- 语言: 英语
- 语言区域代码: en-AU
内容与特征
- 内容类别: 包括访谈、自媒体、综艺节目等
- 录音环境: 低背景噪音
- 注释特征: 转录文本、时间戳、说话人ID、性别、噪音
- 准确性: 单词准确率(WAR) 98%
数据集用途
- 用于提升模型在真实复杂任务中的性能,特别是针对12岁及以下儿童的语音识别和理解。
数据集质量与合规性
- 经过多家AI公司质量测试
- 严格遵守数据保护法规和隐私标准,符合GDPR、CCPA、PIPL等法规要求。



