five

Nexdata/103_Hours_Indonesian_Spontaneous_Dialogue_Smartphone_Speech_Dataset

收藏
Hugging Face2024-04-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/103_Hours_Indonesian_Spontaneous_Dialogue_Smartphone_Speech_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
印度尼西亚(印度尼西亚)自发对话智能手机语音数据集,基于给定主题的对话收集,涵盖20多个领域。转录内容包括文本内容、说话者ID、性别、年龄和其他属性。我们的数据集从广泛且多样化的说话者(168名母语者)中收集,地理上分布广泛,增强了模型在真实和复杂任务中的表现。质量经过多家AI公司测试。我们严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益,我们的数据集均符合GDPR、CCPA、PIPL。

印度尼西亚(印度尼西亚)自发对话智能手机语音数据集,基于给定主题的对话收集,涵盖20多个领域。转录内容包括文本内容、说话者ID、性别、年龄和其他属性。我们的数据集从广泛且多样化的说话者(168名母语者)中收集,地理上分布广泛,增强了模型在真实和复杂任务中的表现。质量经过多家AI公司测试。我们严格遵守数据保护法规和隐私标准,确保在数据收集、存储和使用过程中维护用户隐私和合法权益,我们的数据集均符合GDPR、CCPA、PIPL。
提供机构:
Nexdata
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-nc-nd-4.0
  • 语言: 印度尼西亚语 (id-ID)
  • 国家: 印度尼西亚 (IDN)
  • 录音设备: Android智能手机, iPhone
  • 录音条件: 低背景噪音(室内)
  • 采样率: 16k Hz
  • 位深度: 16 bit
  • 声道: 单声道
  • 格式: wav

内容描述

  • 类别: 基于给定话题的对话
  • 内容: 包含文本转录、时间戳、说话人ID、性别、PII已删除
  • 说话人: 总计412名本地说话人,男性占55%,女性占45%
  • 领域覆盖: 超过20个领域
  • 说话人多样性: 168名不同背景的本地说话人
  • 准确率: 单词准确率(WAR) 98%

数据集特点

  • 数据质量: 经过多家AI公司测试
  • 隐私与合规: 严格遵守数据保护法规和隐私标准,符合GDPR, CCPA, PIPL

使用许可

  • 许可类型: 商业许可
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作