five

yagnikposhiya/CommonVoiceCorpusHindi15

收藏
Hugging Face2023-10-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yagnikposhiya/CommonVoiceCorpusHindi15
下载链接
链接失效反馈
官方服务:
资源简介:
CommonVoiceCorpusHindi15数据集包含印地语的音频文件和元数据文件。音频文件被分为两个目录clips0和clips1,分别包含10,000和4,000+个音频文件。该数据集来源于Common Voice项目,主要用于印地语语音识别。
提供机构:
yagnikposhiya
原始信息汇总

CommonVoiceCorpusHindi15

目录结构

  1. assets

    • a. 下载整个压缩数据集,文件名为 cv-corpus-15.0-2023-09-08-hi.tar.gz
    • b. splitdata.py,一个Python脚本,用于将原始数据集中的 "clips" 目录拆分。因为HuggingFace支持每个目录最多10,000个文件,但原始数据集中的 "clips" 目录包含约14,000个文件。因此, "clips" 目录被拆分为两个目录 "clips0" 和 "clips1"。"clips0" 包含10,000个音频文件,"clips1" 包含剩余的音频文件。
  2. data

    • a. "clips0" 包含10,000个音频文件。
    • b. "clips1" 包含4,000+个音频文件(从14,000个音频文件中剩余的)。
    • c. 其余为元数据文件。

来源

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作