westbrook/gigaspeech-tiny-stage2
收藏Hugging Face2024-07-21 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/westbrook/gigaspeech-tiny-stage2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如segment_id、speaker、text、audio等,涵盖了音频、文本、时间戳、来源、类别等多种信息。数据集主要用于音频和文本的分析,可能用于语音识别、情感分析、音频分类等任务。数据集的来源包括audiobook、podcast和youtube,类别涵盖了广泛的领域,如商业、新闻、娱乐、科技等。数据集还包含了一些音频质量指标,如信噪比(SNR)、语音清晰度(STOI)等。
The dataset contains multiple features such as segment_id, speaker, text, audio, etc., covering a variety of information including audio, text, timestamps, sources, and categories. The dataset is primarily used for audio and text analysis, potentially for tasks such as speech recognition, sentiment analysis, and audio classification. The sources of the dataset include audiobook, podcast, and youtube, with categories covering a wide range of fields such as business, news, entertainment, technology, etc. The dataset also includes some audio quality metrics such as Signal-to-Noise Ratio (SNR), Speech Transmission Index (STOI), etc.
提供机构:
westbrook
原始信息汇总
数据集概述
特征信息
- segment_id: 字符串类型,表示片段ID。
- speaker: 字符串类型,表示说话者。
- text: 字符串类型,表示文本内容。
- audio: 音频数据,采样率为16000。
- begin_time: 浮点数类型,表示开始时间。
- end_time: 浮点数类型,表示结束时间。
- audio_id: 字符串类型,表示音频ID。
- title: 字符串类型,表示标题。
- url: 字符串类型,表示URL链接。
- source: 分类标签,表示音频来源,包括:
- 0: audiobook
- 1: podcast
- 2: youtube
- category: 分类标签,表示类别,包括:
- 0: People and Blogs
- 1: Business
- 2: Nonprofits and Activism
- 3: Crime
- 4: History
- 5: Pets and Animals
- 6: News and Politics
- 7: Travel and Events
- 8: Kids and Family
- 9: Leisure
- 10: N/A
- 11: Comedy
- 12: News and Politics
- 13: Sports
- 14: Arts
- 15: Science and Technology
- 16: Autos and Vehicles
- 17: Science and Technology
- 18: People and Blogs
- 19: Music
- 20: Society and Culture
- 21: Education
- 22: Howto and Style
- 23: Film and Animation
- 24: Gaming
- 25: Entertainment
- 26: Travel and Events
- 27: Health and Fitness
- 28: audiobook
- original_full_path: 字符串类型,表示原始完整路径。
- utterance_pitch_mean: 浮点数类型,表示音高均值。
- utterance_pitch_std: 浮点数类型,表示音高标准差。
- snr: 浮点数类型,表示信噪比。
- c50: 浮点数类型,表示C50值。
- speaking_rate: 浮点数类型,表示语速。
- phonemes: 字符串类型,表示音素。
- stoi: 浮点数类型,表示STOI值。
- si-sdr: 浮点数类型,表示SI-SDR值。
- pesq: 浮点数类型,表示PESQ值。
- age_ori: 字符串类型,表示原始年龄。
- age_value: 浮点数类型,表示年龄值。
- age: 字符串类型,表示年龄。
- accent_ori: 字符串类型,表示原始口音。
- accent_value: 浮点数类型,表示口音值。
- accent: 字符串类型,表示口音。
- brightness_ori: 字符串类型,表示原始亮度。
- brightness_value: 浮点数类型,表示亮度值。
- brightness: 字符串类型,表示亮度。
- emotion_ori: 字符串类型,表示原始情感。
- emotion_value: 浮点数类型,表示情感值。
- emotion: 字符串类型,表示情感。
- gender_ori: 字符串类型,表示原始性别。
- gender_value: 浮点数类型,表示性别值。
- gender: 字符串类型,表示性别。
- smoothness_ori: 字符串类型,表示原始平滑度。
- smoothness_value: 浮点数类型,表示平滑度值。
- smoothness: 字符串类型,表示平滑度。
数据集划分
- train: 训练集,包含10个样本,总大小为1058400字节。
数据集大小
- 下载大小: 1068782字节
- 数据集大小: 1058400字节
配置信息
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



