five

rsalshalan/MGB5

收藏
Hugging Face2024-02-02 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/rsalshalan/MGB5
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: audio dtype: audio - name: id dtype: string - name: transcription dtype: string - name: segment_start dtype: int64 - name: segment_end dtype: int64 splits: - name: train num_bytes: 4478662375.432 num_examples: 30616 - name: validation num_bytes: 845929172.888 num_examples: 5808 - name: test num_bytes: 909076999.72 num_examples: 5484 download_size: 6187026845 dataset_size: 6233668548.04 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

The dataset includes features such as audio files, ID, transcription, segment start time, and segment end time. The dataset is divided into train, validation, and test sets, each with corresponding byte size and number of examples. The dataset configuration includes a default configuration, specifying the data file paths for each split.
提供机构:
rsalshalan
原始信息汇总

数据集概述

数据集特征

  • audio: 音频数据,数据类型为 audio
  • id: 标识符,数据类型为 string
  • transcription: 转录文本,数据类型为 string
  • segment_start: 片段开始时间,数据类型为 int64
  • segment_end: 片段结束时间,数据类型为 int64

数据集分割

  • train: 训练集,包含 30616 个样本,大小为 4478662375.432 字节。
  • validation: 验证集,包含 5808 个样本,大小为 845929172.888 字节。
  • test: 测试集,包含 5484 个样本,大小为 909076999.72 字节。

数据集大小

  • 下载大小: 6187026845 字节。
  • 数据集总大小: 6233668548.04 字节。

配置

  • config_name: default
    • data_files:
      • train: data/train-*
      • validation: data/validation-*
      • test: data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作