1rsh/gujarati-interspeech
收藏Hugging Face2024-05-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/1rsh/gujarati-interspeech
下载链接
链接失效反馈官方服务:
资源简介:
Gujarati Interspeech数据集包含音频和文本两种特征,分为训练集和验证集两个部分。训练集包含22,807个样本,验证集包含3,075个样本。数据集的总下载大小为4,891,973,487字节,总大小为5,318,387,009.042001字节。数据集的配置文件中指定了训练集和验证集的文件路径。数据集的许可证为Apache 2.0,主要语言为古吉拉特语(Gujarati)。数据集的具体细节包括:大多数音频条目时长小于5秒,适合使用Whisper模型进行准确的时间戳预测,且音频似乎由单人录制。
Gujarati Interspeech数据集包含音频和文本两种特征,分为训练集和验证集两个部分。训练集包含22,807个样本,验证集包含3,075个样本。数据集的总下载大小为4,891,973,487字节,总大小为5,318,387,009.042001字节。数据集的配置文件中指定了训练集和验证集的文件路径。数据集的许可证为Apache 2.0,主要语言为古吉拉特语(Gujarati)。数据集的具体细节包括:大多数音频条目时长小于5秒,适合使用Whisper模型进行准确的时间戳预测,且音频似乎由单人录制。
提供机构:
1rsh
原始信息汇总
Gujarati Interspeech 数据集概述
数据集信息
- 特征:
audio: 音频数据text: 字符串文本
- 分割:
train: 训练集,包含 22807 个样本,大小为 4739686436.192 字节validation: 验证集,包含 3075 个样本,大小为 578700572.85 字节
- 下载大小: 4891973487 字节
- 数据集大小: 5318387009.042001 字节
配置
- 默认配置:
train: 数据路径为data/train-*validation: 数据路径为data/validation-*
许可证
apache-2.0
语言
gu(古吉拉特语)
数据集详情
- 古吉拉特语数据: 大多数条目时长小于5秒,适合使用Whisper模型进行准确的时间戳预测。
- 音频特征: 音频似乎由单个人朗读。



