five

Nexdata/370_Hours_Malay_Speech_Data_by_Mobile_Phone

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/370_Hours_Malay_Speech_Data_by_Mobile_Phone
下载链接
链接失效反馈
官方服务:
资源简介:
马来语(马来西亚)脚本独白智能手机语音数据集,基于给定的脚本收集独白,涵盖通用领域、人机交互、智能家居命令和车载命令、新闻等领域。数据集包含675名不同性别和年龄段的说话者,地理分布广泛,以提高模型在真实和复杂任务中的性能。数据集的质量经过多家AI公司的测试,并严格遵守数据保护法规和隐私标准。数据集的格式为16kHz、16bit、未压缩的wav文件,单声道,录制条件为低背景噪音(室内),无回声。数据集的语言为马来语,地区代码为ms-MY。注释特征包括转录文本,句子准确率为95%。数据集采用商业许可。

马来语(马来西亚)脚本独白智能手机语音数据集,基于给定的脚本收集独白,涵盖通用领域、人机交互、智能家居命令和车载命令、新闻等领域。数据集包含675名不同性别和年龄段的说话者,地理分布广泛,以提高模型在真实和复杂任务中的性能。数据集的质量经过多家AI公司的测试,并严格遵守数据保护法规和隐私标准。数据集的格式为16kHz、16bit、未压缩的wav文件,单声道,录制条件为低背景噪音(室内),无回声。数据集的语言为马来语,地区代码为ms-MY。注释特征包括转录文本,句子准确率为95%。数据集采用商业许可。
提供机构:
Nexdata
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-nc-nd-4.0
  • 语言: 马来语
  • 地区代码: ms-MY
  • 国家: 马来西亚

数据集描述

  • 内容类别: 通用领域; 人机交互; 智能家居和车载命令; 数字; 新闻
  • 录制条件: 低背景噪音(室内),无回声
  • 录制设备: Android智能手机, iPhone
  • 发言人: 总计675人,其中44%为男性,56%为女性
  • 年龄分布: 18-25岁占66%,26-45岁占32%,46-60岁占5%,浮动率为2%

技术规格

  • 格式: 16kHz, 16bit, 单声道, 未压缩wav格式

标注特征

  • 标注内容: 转录文本
  • 准确率: 句子准确率(SAR) 95%

数据集用途

  • 适用场景: 增强模型在真实和复杂任务中的性能
  • 合规性: 符合GDPR, CCPA, PIPL数据保护法规和隐私标准
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作