seanghay/kmcs
收藏Hugging Face2023-05-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/seanghay/kmcs
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
dataset_info:
features:
- name: audio
dtype: audio
- name: transcription
dtype: string
splits:
- name: train
num_bytes: 1226373371.915
num_examples: 5565
download_size: 1064307923
dataset_size: 1226373371.915
---
# ⚠️ Migration Notice
Moved to [seanghay/km-speech-corpus](https://huggingface.co/datasets/seanghay/km-speech-corpus)
## Khmer Common Speech 1.0
This dataset contains 5,565 samples of Khmer speech downloaded from public YouTube videos. 4.83 hours in total.
This dataset was made by this project: https://github.com/seanghay/subtitle-demuxer
## References
- [Chanty Sothy](https://github.com/chantysothy) - the initial idea and YouTube links with Khmer subtitles.
许可证:Apache-2.0
数据集信息:
特征:
- 名称:音频(audio),数据类型:音频
- 名称:转录文本(transcription),数据类型:字符串
划分:
- 名称:训练集(train),字节数:1226373371.915,样本数量:5565
下载大小:1064307923,数据集总大小:1226373371.915
# ⚠️ 迁移通知
已迁移至 [seanghay/km-speech-corpus](https://huggingface.co/datasets/seanghay/km-speech-corpus)
## 高棉通用语音1.0版
本数据集包含5565条从公开YouTube视频中获取的高棉语语音样本,总时长共计4.83小时。
本数据集由项目https://github.com/seanghay/subtitle-demuxer 制作完成。
## 参考文献
- [Chanty Sothy](https://github.com/chantysothy) —— 提出了最初的创意构想,并提供了带有高棉语字幕的YouTube链接来源。
提供机构:
seanghay
原始信息汇总
Khmer Common Speech 1.0 数据集概述
数据集信息
特征
- 音频:数据类型为音频。
- 转录文本:数据类型为字符串。
数据分割
- 训练集:
- 字节数:1,226,373,371.915
- 样本数:5,565
数据大小
- 下载大小:1,064,307,923 字节
- 数据集大小:1,226,373,371.915 字节
数据集描述
该数据集包含 5,565 个从公开 YouTube 视频下载的柬埔寨语语音样本,总计 4.83 小时。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集详情页面因访问速度过快被限制,未提供具体数据集信息,仅包含访问限制提示和解决方案。
以上内容由遇见数据集搜集并总结生成



