papasega/Avalinguo-Audio-Dataset-splitted
收藏Hugging Face2024-03-03 更新2024-06-26 收录
下载链接:
https://hf-mirror.com/datasets/papasega/Avalinguo-Audio-Dataset-splitted
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: filename
dtype: string
- name: label
dtype: string
- name: finalText
dtype: string
- name: num_words
dtype: int64
- name: segment_duration
dtype: float64
- name: words_per_sec
dtype: float64
- name: user
dtype: string
- name: duration
dtype: float64
- name: speech_rate
dtype: float64
- name: speech_rate_segment
dtype: float64
- name: lexical_density
dtype: float64
- name: 1gram_repeat
dtype: int64
- name: 2gram_repeat
dtype: int64
- name: 3gram_repeat
dtype: int64
- name: 4gram_repeat
dtype: int64
- name: 5gram_repeat
dtype: int64
- name: audio
struct:
- name: array
sequence: float64
- name: path
dtype: string
- name: sampling_rate
dtype: int64
splits:
- name: train
num_bytes: 666563662
num_examples: 1041
- name: test
num_bytes: 222186197
num_examples: 347
download_size: 218974072
dataset_size: 888749859
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
提供机构:
papasega
原始信息汇总
数据集概述
数据特征
数据集包含以下特征:
- filename: 文件名,数据类型为字符串。
- label: 标签,数据类型为字符串。
- finalText: 最终文本,数据类型为字符串。
- num_words: 单词数量,数据类型为整数。
- segment_duration: 片段持续时间,数据类型为浮点数。
- words_per_sec: 每秒单词数,数据类型为浮点数。
- user: 用户,数据类型为字符串。
- duration: 持续时间,数据类型为浮点数。
- speech_rate: 语速,数据类型为浮点数。
- speech_rate_segment: 片段语速,数据类型为浮点数。
- lexical_density: 词汇密度,数据类型为浮点数。
- 1gram_repeat: 一元重复次数,数据类型为整数。
- 2gram_repeat: 二元重复次数,数据类型为整数。
- 3gram_repeat: 三元重复次数,数据类型为整数。
- 4gram_repeat: 四元重复次数,数据类型为整数。
- 5gram_repeat: 五元重复次数,数据类型为整数。
- audio: 音频数据,包含以下子结构:
- array: 音频数组,数据类型为浮点数序列。
- path: 音频文件路径,数据类型为字符串。
- sampling_rate: 采样率,数据类型为整数。
数据分割
数据集分为以下几个部分:
- train: 训练集,包含1041个样本,总字节数为666563662。
- test: 测试集,包含347个样本,总字节数为222186197。
数据集大小
- download_size: 下载大小为218974072字节。
- dataset_size: 数据集总大小为888749859字节。
配置
- default: 默认配置,包含以下数据文件路径:
- train: 训练集数据文件路径为
data/train-*。 - test: 测试集数据文件路径为
data/test-*。
- train: 训练集数据文件路径为



