clt013/malay-speech-3k-rows-dataset
收藏Hugging Face2024-06-18 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/clt013/malay-speech-3k-rows-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2.4小时的马来语对话语音,用于研究目的。数据集通过Hugging Face平台提供,并进行了训练集和测试集的划分,测试集比例为0.2。数据集的特征包括句子和音频数据,音频的采样率为16000Hz。训练集包含2545个样本,测试集包含604个样本。数据集的下载大小为275550950字节,总大小为277293010.875字节。数据集的语言为马来语,许可证为cc-by-nc-nd-4.0,规模类别为1K<n<10K。
This dataset contains 2.4 hours of Malay conversational speech, intended for research purposes. The dataset is provided through the Hugging Face platform and has been split into training and test sets with a test size of 0.2. The features of the dataset include sentences and audio data, with the audio sampled at 16000Hz. The training set contains 2545 examples, and the test set contains 604 examples. The download size of the dataset is 275550950 bytes, and the total size is 277293010.875 bytes. The language of the dataset is Malay, licensed under cc-by-nc-nd-4.0, and falls under the size category of 1K<n<10K.
提供机构:
clt013
原始信息汇总
Malay Conversational Speech Corpus
数据集信息
特征
- sentence: 类型为字符串。
- audio: 包含音频数据,采样率为16000。
分割
- train: 包含2545个样本,大小为216779209.875字节。
- test: 包含604个样本,大小为60513801字节。
大小
- 下载大小: 275550950字节。
- 数据集大小: 277293010.875字节。
配置
- default:
- train: 数据路径为
data/train-*。 - test: 数据路径为
data/test-*。
- train: 数据路径为
语言
- ms: 马来语。
许可
- cc-by-nc-nd-4.0: 非商业用途的CC BY-NC-ND 4.0许可。
规模
- 1K<n<10K: 样本数量在1000到10000之间。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个包含3,149行马来语对话语音的语料库,总时长为2.4小时,已按80:20比例划分为训练集和测试集。数据以parquet格式存储,包含音频文件和对应文本,适用于语音识别等研究用途。
以上内容由遇见数据集搜集并总结生成



