PYD4320/audio-text-pair_train-test-dataset-hindi

Name: PYD4320/audio-text-pair_train-test-dataset-hindi
Creator: PYD4320
Published: 2024-05-30 04:37:35
License: 暂无描述

Hugging Face2024-05-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/PYD4320/audio-text-pair_train-test-dataset-hindi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含音频和文本对，其中文本是印地语的转录，音频是对应的音频文件。数据集分为训练集和测试集，训练集包含200个样本，测试集包含60个样本。音频文件的采样率为16000Hz。数据集的下载大小为773258613字节，数据集总大小为783087667字节。数据集的标签包括印地语、音频、文本、音频-文本对等。

提供机构：

PYD4320

原始信息汇总

数据集概述

数据集特征

audio: 音频数据，采样率为16000 Hz。
text: 文本数据，类型为字符串。

数据集分割

train: 包含200个样本，总大小为636110732字节。
test: 包含60个样本，总大小为146976935字节。

数据集大小

下载大小: 773258613字节。
数据集总大小: 783087667字节。

数据集配置

default:
- train: 数据文件路径为data/train-*。
- test: 数据文件路径为data/test-*。

语言和标签

语言: 印地语（Hindi）。
标签:
- hindi
- audio
- text
- audio-text
- pairs

数据集结构

train: 包含200行数据，特征为[audio, text]。
test: 包含60行数据，特征为[audio, text]。

示例数据

audio: 包含音频文件路径、音频数据数组及采样率。
text: 包含印地语文本。

5,000+

优质数据集

54 个

任务类型

进入经典数据集