westbrook/gigaspeech-tiny-stage1
收藏Hugging Face2024-07-21 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/westbrook/gigaspeech-tiny-stage1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如segment_id、speaker、text、audio等,其中audio特征包含采样率信息。数据集还包含多个分类标签,如source和category,分别表示数据来源和类别。此外,数据集还包含音频的统计信息,如utterance_pitch_mean、utterance_pitch_std等。数据集分为一个训练集,包含10个样本,总大小为1056699字节。
该数据集包含多个特征,如segment_id、speaker、text、audio等,其中audio特征包含采样率信息。数据集还包含多个分类标签,如source和category,分别表示数据来源和类别。此外,数据集还包含音频的统计信息,如utterance_pitch_mean、utterance_pitch_std等。数据集分为一个训练集,包含10个样本,总大小为1056699字节。
提供机构:
westbrook
原始信息汇总
数据集概述
特征信息
- segment_id: 字符串类型
- speaker: 字符串类型
- text: 字符串类型
- audio: 音频类型,采样率为16000
- begin_time: 浮点数类型
- end_time: 浮点数类型
- audio_id: 字符串类型
- title: 字符串类型
- url: 字符串类型
- source: 分类标签类型,包含以下类别:
- 0: audiobook
- 1: podcast
- 2: youtube
- category: 分类标签类型,包含以下类别:
- 0: People and Blogs
- 1: Business
- 2: Nonprofits and Activism
- 3: Crime
- 4: History
- 5: Pets and Animals
- 6: News and Politics
- 7: Travel and Events
- 8: Kids and Family
- 9: Leisure
- 10: N/A
- 11: Comedy
- 12: News and Politics
- 13: Sports
- 14: Arts
- 15: Science and Technology
- 16: Autos and Vehicles
- 17: Science and Technology
- 18: People and Blogs
- 19: Music
- 20: Society and Culture
- 21: Education
- 22: Howto and Style
- 23: Film and Animation
- 24: Gaming
- 25: Entertainment
- 26: Travel and Events
- 27: Health and Fitness
- 28: audiobook
- original_full_path: 字符串类型
- utterance_pitch_mean: 浮点数类型
- utterance_pitch_std: 浮点数类型
- snr: 浮点数类型
- c50: 浮点数类型
- speaking_rate: 浮点数类型
- phonemes: 字符串类型
- stoi: 浮点数类型
- si-sdr: 浮点数类型
- pesq: 浮点数类型
数据集划分
- train: 包含10个样本,占用1056699.0字节
数据集大小
- 下载大小: 1059252字节
- 数据集大小: 1056699.0字节
配置信息
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



