Nexdata/370_Hours_Malay_Speech_Data_by_Mobile_Phone
收藏Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/370_Hours_Malay_Speech_Data_by_Mobile_Phone
下载链接
链接失效反馈官方服务:
资源简介:
马来语(马来西亚)脚本独白智能手机语音数据集,基于给定的脚本收集独白,涵盖通用领域、人机交互、智能家居命令和车载命令、新闻等领域。数据集包含675名不同性别和年龄段的说话者,地理分布广泛,以提高模型在真实和复杂任务中的性能。数据集的质量经过多家AI公司的测试,并严格遵守数据保护法规和隐私标准。数据集的格式为16kHz、16bit、未压缩的wav文件,单声道,录制条件为低背景噪音(室内),无回声。数据集的语言为马来语,地区代码为ms-MY。注释特征包括转录文本,句子准确率为95%。数据集采用商业许可。
马来语(马来西亚)脚本独白智能手机语音数据集,基于给定的脚本收集独白,涵盖通用领域、人机交互、智能家居命令和车载命令、新闻等领域。数据集包含675名不同性别和年龄段的说话者,地理分布广泛,以提高模型在真实和复杂任务中的性能。数据集的质量经过多家AI公司的测试,并严格遵守数据保护法规和隐私标准。数据集的格式为16kHz、16bit、未压缩的wav文件,单声道,录制条件为低背景噪音(室内),无回声。数据集的语言为马来语,地区代码为ms-MY。注释特征包括转录文本,句子准确率为95%。数据集采用商业许可。
提供机构:
Nexdata
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-nc-nd-4.0
- 语言: 马来语
- 地区代码: ms-MY
- 国家: 马来西亚
数据集描述
- 内容类别: 通用领域; 人机交互; 智能家居和车载命令; 数字; 新闻
- 录制条件: 低背景噪音(室内),无回声
- 录制设备: Android智能手机, iPhone
- 发言人: 总计675人,其中44%为男性,56%为女性
- 年龄分布: 18-25岁占66%,26-45岁占32%,46-60岁占5%,浮动率为2%
技术规格
- 格式: 16kHz, 16bit, 单声道, 未压缩wav格式
标注特征
- 标注内容: 转录文本
- 准确率: 句子准确率(SAR) 95%
数据集用途
- 适用场景: 增强模型在真实和复杂任务中的性能
- 合规性: 符合GDPR, CCPA, PIPL数据保护法规和隐私标准



