five

Nexdata/Malay_Speech_Data_by_Mobile_Phone_Reading|语音识别数据集|自然语言处理数据集

收藏
hugging_face2024-04-17 更新2024-03-04 收录
语音识别
自然语言处理
下载链接:
https://hf-mirror.com/datasets/Nexdata/Malay_Speech_Data_by_Mobile_Phone_Reading
下载链接
链接失效反馈
资源简介:
该数据集包含156位马来语母语者在安静环境中录制的语音数据,内容涵盖经济、娱乐、新闻、口语、数字和字母等多个类别。每位发言人录制了约450个句子,总有效时长为134小时。所有文本均经过人工转录,确保高准确性。数据集支持自动语音识别(ASR)和音频说话人识别任务。语言为马来语。
提供机构:
Nexdata
原始信息汇总

数据集概述

数据集名称

  • 名称: Nexdata/Malay_Speech_Data_by_Mobile_Phone_Reading

数据集描述

  • 摘要: 该数据集由156位马来语母语者通过移动电话在安静环境中录制,内容丰富,涵盖经济、娱乐、新闻、口语、数字和字母等多个类别。每位发言者约有450句话,总有效时长为134小时。所有文本均经过人工转录,确保高准确性。
  • 支持的任务: 自动语音识别(ASR)和音频说话人识别。
  • 语言: 马来语

数据集结构

  • 数据实例: 待补充
  • 数据字段: 待补充
  • 数据分割: 待补充

数据集创建

  • 来源数据: 待补充
  • 注释过程: 待补充
  • 个人和敏感信息: 待补充

使用数据的考虑

  • 社会影响: 待补充
  • 偏见讨论: 待补充
  • 其他已知限制: 待补充

附加信息

  • 许可证信息: 商业许可证,详情见链接:https://drive.google.com/file/d/1saDCPm74D4UWfBL17VbkTsZLGfpOQj1J/view?usp=sharing
  • 数据集管理者: 待补充
  • 引用信息: 待补充
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

FSDD

FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。

github.com 收录