yagnikposhiya/CommonVoiceCorpusHindi15
收藏Hugging Face2023-10-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yagnikposhiya/CommonVoiceCorpusHindi15
下载链接
链接失效反馈官方服务:
资源简介:
CommonVoiceCorpusHindi15数据集包含印地语的音频文件和元数据文件。音频文件被分为两个目录clips0和clips1,分别包含10,000和4,000+个音频文件。该数据集来源于Common Voice项目,主要用于印地语语音识别。
提供机构:
yagnikposhiya
原始信息汇总
CommonVoiceCorpusHindi15
目录结构
-
assets
- a. 下载整个压缩数据集,文件名为
cv-corpus-15.0-2023-09-08-hi.tar.gz。 - b.
splitdata.py,一个Python脚本,用于将原始数据集中的 "clips" 目录拆分。因为HuggingFace支持每个目录最多10,000个文件,但原始数据集中的 "clips" 目录包含约14,000个文件。因此, "clips" 目录被拆分为两个目录 "clips0" 和 "clips1"。"clips0" 包含10,000个音频文件,"clips1" 包含剩余的音频文件。
- a. 下载整个压缩数据集,文件名为
-
data
- a. "clips0" 包含10,000个音频文件。
- b. "clips1" 包含4,000+个音频文件(从14,000个音频文件中剩余的)。
- c. 其余为元数据文件。
来源
- Credit: Common Voice moz://a



