five

westbrook/gigaspeech-tiny-stage1

收藏
Hugging Face2024-07-21 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/westbrook/gigaspeech-tiny-stage1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征,如segment_id、speaker、text、audio等,其中audio特征包含采样率信息。数据集还包含多个分类标签,如source和category,分别表示数据来源和类别。此外,数据集还包含音频的统计信息,如utterance_pitch_mean、utterance_pitch_std等。数据集分为一个训练集,包含10个样本,总大小为1056699字节。

该数据集包含多个特征,如segment_id、speaker、text、audio等,其中audio特征包含采样率信息。数据集还包含多个分类标签,如source和category,分别表示数据来源和类别。此外,数据集还包含音频的统计信息,如utterance_pitch_mean、utterance_pitch_std等。数据集分为一个训练集,包含10个样本,总大小为1056699字节。
提供机构:
westbrook
原始信息汇总

数据集概述

特征信息

  • segment_id: 字符串类型
  • speaker: 字符串类型
  • text: 字符串类型
  • audio: 音频类型,采样率为16000
  • begin_time: 浮点数类型
  • end_time: 浮点数类型
  • audio_id: 字符串类型
  • title: 字符串类型
  • url: 字符串类型
  • source: 分类标签类型,包含以下类别:
    • 0: audiobook
    • 1: podcast
    • 2: youtube
  • category: 分类标签类型,包含以下类别:
    • 0: People and Blogs
    • 1: Business
    • 2: Nonprofits and Activism
    • 3: Crime
    • 4: History
    • 5: Pets and Animals
    • 6: News and Politics
    • 7: Travel and Events
    • 8: Kids and Family
    • 9: Leisure
    • 10: N/A
    • 11: Comedy
    • 12: News and Politics
    • 13: Sports
    • 14: Arts
    • 15: Science and Technology
    • 16: Autos and Vehicles
    • 17: Science and Technology
    • 18: People and Blogs
    • 19: Music
    • 20: Society and Culture
    • 21: Education
    • 22: Howto and Style
    • 23: Film and Animation
    • 24: Gaming
    • 25: Entertainment
    • 26: Travel and Events
    • 27: Health and Fitness
    • 28: audiobook
  • original_full_path: 字符串类型
  • utterance_pitch_mean: 浮点数类型
  • utterance_pitch_std: 浮点数类型
  • snr: 浮点数类型
  • c50: 浮点数类型
  • speaking_rate: 浮点数类型
  • phonemes: 字符串类型
  • stoi: 浮点数类型
  • si-sdr: 浮点数类型
  • pesq: 浮点数类型

数据集划分

  • train: 包含10个样本,占用1056699.0字节

数据集大小

  • 下载大小: 1059252字节
  • 数据集大小: 1056699.0字节

配置信息

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作