1rsh/gujarati-interspeech

Name: 1rsh/gujarati-interspeech
Creator: 1rsh
Published: 2024-05-20 05:33:59
License: 暂无描述

Hugging Face2024-05-20 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/1rsh/gujarati-interspeech

下载链接

链接失效反馈

官方服务：

资源简介：

Gujarati Interspeech数据集包含音频和文本两种特征，分为训练集和验证集两个部分。训练集包含22,807个样本，验证集包含3,075个样本。数据集的总下载大小为4,891,973,487字节，总大小为5,318,387,009.042001字节。数据集的配置文件中指定了训练集和验证集的文件路径。数据集的许可证为Apache 2.0，主要语言为古吉拉特语（Gujarati）。数据集的具体细节包括：大多数音频条目时长小于5秒，适合使用Whisper模型进行准确的时间戳预测，且音频似乎由单人录制。

提供机构：

1rsh

原始信息汇总

Gujarati Interspeech 数据集概述

数据集信息

特征:
- audio: 音频数据
- text: 字符串文本
分割:
- train: 训练集，包含 22807 个样本，大小为 4739686436.192 字节
- validation: 验证集，包含 3075 个样本，大小为 578700572.85 字节
下载大小: 4891973487 字节
数据集大小: 5318387009.042001 字节

配置

默认配置:
- train: 数据路径为 data/train-*
- validation: 数据路径为 data/validation-*

许可证

apache-2.0

语言

gu (古吉拉特语)

数据集详情

古吉拉特语数据: 大多数条目时长小于5秒，适合使用Whisper模型进行准确的时间戳预测。
音频特征: 音频似乎由单个人朗读。

5,000+

优质数据集

54 个

任务类型

进入经典数据集