five

papasega/Avalinguo-Audio-Dataset-splitted

收藏
Hugging Face2024-03-03 更新2024-06-26 收录
下载链接:
https://hf-mirror.com/datasets/papasega/Avalinguo-Audio-Dataset-splitted
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: filename dtype: string - name: label dtype: string - name: finalText dtype: string - name: num_words dtype: int64 - name: segment_duration dtype: float64 - name: words_per_sec dtype: float64 - name: user dtype: string - name: duration dtype: float64 - name: speech_rate dtype: float64 - name: speech_rate_segment dtype: float64 - name: lexical_density dtype: float64 - name: 1gram_repeat dtype: int64 - name: 2gram_repeat dtype: int64 - name: 3gram_repeat dtype: int64 - name: 4gram_repeat dtype: int64 - name: 5gram_repeat dtype: int64 - name: audio struct: - name: array sequence: float64 - name: path dtype: string - name: sampling_rate dtype: int64 splits: - name: train num_bytes: 666563662 num_examples: 1041 - name: test num_bytes: 222186197 num_examples: 347 download_size: 218974072 dataset_size: 888749859 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---
提供机构:
papasega
原始信息汇总

数据集概述

数据特征

数据集包含以下特征:

  • filename: 文件名,数据类型为字符串。
  • label: 标签,数据类型为字符串。
  • finalText: 最终文本,数据类型为字符串。
  • num_words: 单词数量,数据类型为整数。
  • segment_duration: 片段持续时间,数据类型为浮点数。
  • words_per_sec: 每秒单词数,数据类型为浮点数。
  • user: 用户,数据类型为字符串。
  • duration: 持续时间,数据类型为浮点数。
  • speech_rate: 语速,数据类型为浮点数。
  • speech_rate_segment: 片段语速,数据类型为浮点数。
  • lexical_density: 词汇密度,数据类型为浮点数。
  • 1gram_repeat: 一元重复次数,数据类型为整数。
  • 2gram_repeat: 二元重复次数,数据类型为整数。
  • 3gram_repeat: 三元重复次数,数据类型为整数。
  • 4gram_repeat: 四元重复次数,数据类型为整数。
  • 5gram_repeat: 五元重复次数,数据类型为整数。
  • audio: 音频数据,包含以下子结构:
    • array: 音频数组,数据类型为浮点数序列。
    • path: 音频文件路径,数据类型为字符串。
    • sampling_rate: 采样率,数据类型为整数。

数据分割

数据集分为以下几个部分:

  • train: 训练集,包含1041个样本,总字节数为666563662。
  • test: 测试集,包含347个样本,总字节数为222186197。

数据集大小

  • download_size: 下载大小为218974072字节。
  • dataset_size: 数据集总大小为888749859字节。

配置

  • default: 默认配置,包含以下数据文件路径:
    • train: 训练集数据文件路径为data/train-*
    • test: 测试集数据文件路径为data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作