seanghay/km-speech-corpus
收藏Hugging Face2023-05-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/seanghay/km-speech-corpus
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype: audio
- name: transcription
dtype: string
- name: raw_transcription
dtype: string
splits:
- name: train
num_bytes: 2401601016.002
num_examples: 14943
download_size: 2386178405
dataset_size: 2401601016.002
license: cc-by-4.0
task_categories:
- automatic-speech-recognition
- text-to-speech
language:
- km
pretty_name: Khmer Speech Corpus
size_categories:
- 10K<n<100K
---
# Dataset Card for "km-speech-corpus"
```
sampling_rate: 16000
mean_seconds: 2.5068187111021882
max_seconds: 19.392
min_seconds: 0.448
total_seconds: 37459.392
total_hrs: 10.405386666666667
```
提供机构:
seanghay
原始信息汇总
数据集概述
基本信息
- 名称: Khmer Speech Corpus
- 语言: km
- 许可证: cc-by-4.0
数据特征
- 音频 (audio): 数据类型为音频。
- 转录文本 (transcription): 数据类型为字符串。
- 原始转录文本 (raw_transcription): 数据类型为字符串。
数据集划分
- 训练集 (train):
- 示例数量: 14943
- 数据大小: 2401601016.002字节
数据集大小
- 下载大小: 2386178405字节
- 总大小: 2401601016.002字节
任务类别
- 自动语音识别
- 文本到语音
数据集规模
- 规模类别: 10K<n<100K
音频特性
- 采样率: 16000 Hz
- 平均时长: 2.5068187111021882秒
- 最大时长: 19.392秒
- 最小时长: 0.448秒
- 总时长: 37459.392秒
- 总时长(小时): 10.405386666666667小时



