Nexdata/103_Hours_Indonesian_Spontaneous_Dialogue_Smartphone_Speech_Dataset
收藏Hugging Face2024-04-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/103_Hours_Indonesian_Spontaneous_Dialogue_Smartphone_Speech_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
印度尼西亚(印度尼西亚)自发对话智能手机语音数据集,基于给定主题的对话收集,涵盖20多个领域。转录内容包括文本内容、说话者ID、性别、年龄和其他属性。我们的数据集从广泛且多样化的说话者(168名母语者)中收集,地理上分布广泛,增强了模型在真实和复杂任务中的表现。质量经过多家AI公司测试。我们严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益,我们的数据集均符合GDPR、CCPA、PIPL。
印度尼西亚(印度尼西亚)自发对话智能手机语音数据集,基于给定主题的对话收集,涵盖20多个领域。转录内容包括文本内容、说话者ID、性别、年龄和其他属性。我们的数据集从广泛且多样化的说话者(168名母语者)中收集,地理上分布广泛,增强了模型在真实和复杂任务中的表现。质量经过多家AI公司测试。我们严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益,我们的数据集均符合GDPR、CCPA、PIPL。
提供机构:
Nexdata
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-nc-nd-4.0
- 语言: 印度尼西亚语 (id-ID)
- 国家: 印度尼西亚 (IDN)
- 录音设备: Android智能手机, iPhone
- 录音条件: 低背景噪音(室内)
- 采样率: 16k Hz
- 位深度: 16 bit
- 声道: 单声道
- 格式: wav
内容描述
- 类别: 基于给定话题的对话
- 内容: 包含文本转录、时间戳、说话人ID、性别、PII已删除
- 说话人: 总计412名本地说话人,男性占55%,女性占45%
- 领域覆盖: 超过20个领域
- 说话人多样性: 168名不同背景的本地说话人
- 准确率: 单词准确率(WAR) 98%
数据集特点
- 数据质量: 经过多家AI公司测试
- 隐私与合规: 严格遵守数据保护法规和隐私标准,符合GDPR, CCPA, PIPL
使用许可
- 许可类型: 商业许可



