rsalshalan/MGB5
收藏Hugging Face2024-02-02 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/rsalshalan/MGB5
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype: audio
- name: id
dtype: string
- name: transcription
dtype: string
- name: segment_start
dtype: int64
- name: segment_end
dtype: int64
splits:
- name: train
num_bytes: 4478662375.432
num_examples: 30616
- name: validation
num_bytes: 845929172.888
num_examples: 5808
- name: test
num_bytes: 909076999.72
num_examples: 5484
download_size: 6187026845
dataset_size: 6233668548.04
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
The dataset includes features such as audio files, ID, transcription, segment start time, and segment end time. The dataset is divided into train, validation, and test sets, each with corresponding byte size and number of examples. The dataset configuration includes a default configuration, specifying the data file paths for each split.
提供机构:
rsalshalan
原始信息汇总
数据集概述
数据集特征
- audio: 音频数据,数据类型为
audio。 - id: 标识符,数据类型为
string。 - transcription: 转录文本,数据类型为
string。 - segment_start: 片段开始时间,数据类型为
int64。 - segment_end: 片段结束时间,数据类型为
int64。
数据集分割
- train: 训练集,包含 30616 个样本,大小为 4478662375.432 字节。
- validation: 验证集,包含 5808 个样本,大小为 845929172.888 字节。
- test: 测试集,包含 5484 个样本,大小为 909076999.72 字节。
数据集大小
- 下载大小: 6187026845 字节。
- 数据集总大小: 6233668548.04 字节。
配置
- config_name: default
- data_files:
- train:
data/train-* - validation:
data/validation-* - test:
data/test-*
- train:
- data_files:



