aleadag/cv2_tags_tagged_generated
收藏Hugging Face2024-04-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/aleadag/cv2_tags_tagged_generated
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: client_id
dtype: string
- name: path
dtype: string
- name: text
dtype: string
- name: up_votes
dtype: int64
- name: down_votes
dtype: int64
- name: age
dtype: string
- name: gender
dtype: string
- name: accent
dtype: string
- name: locale
dtype: string
- name: segment
dtype: string
- name: utterance_pitch_mean
dtype: float32
- name: utterance_pitch_std
dtype: float32
- name: snr
dtype: float64
- name: c50
dtype: float64
- name: speaking_rate
dtype: string
- name: phonemes
dtype: string
- name: pitch
dtype: string
- name: noise
dtype: string
- name: reverberation
dtype: string
- name: speech_monotony
dtype: string
- name: text_description
dtype: string
splits:
- name: train
num_bytes: 1891438
num_examples: 2301
- name: test
num_bytes: 1608836
num_examples: 1950
- name: validation
num_bytes: 1605728
num_examples: 1947
- name: other
num_bytes: 15143
num_examples: 19
- name: invalidated
num_bytes: 649116
num_examples: 777
download_size: 2057153
dataset_size: 5770261
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
- split: validation
path: data/validation-*
- split: other
path: data/other-*
- split: invalidated
path: data/invalidated-*
---
数据集信息:
特征:
- 名称:客户端ID (client_id),数据类型:字符串
- 名称:文件路径 (path),数据类型:字符串
- 名称:文本 (text),数据类型:字符串
- 名称:点赞数 (up_votes),数据类型:64位整型
- 名称:反对票 (down_votes),数据类型:64位整型
- 名称:年龄 (age),数据类型:字符串
- 名称:性别 (gender),数据类型:字符串
- 名称:口音 (accent),数据类型:字符串
- 名称:语言区域 (locale),数据类型:字符串
- 名称:片段 (segment),数据类型:字符串
- 名称:话语平均基频 (utterance_pitch_mean),数据类型:单精度浮点型
- 名称:话语基频标准差 (utterance_pitch_std),数据类型:单精度浮点型
- 名称:信噪比 (SNR),数据类型:双精度浮点型
- 名称:C50清晰度指标 (c50),数据类型:双精度浮点型
- 名称:说话速率 (speaking_rate),数据类型:字符串
- 名称:音素 (phonemes),数据类型:字符串
- 名称:基频 (pitch),数据类型:字符串
- 名称:噪声 (noise),数据类型:字符串
- 名称:混响 (reverberation),数据类型:字符串
- 名称:语音单调度 (speech_monotony),数据类型:字符串
- 名称:文本描述 (text_description),数据类型:字符串
数据集划分:
- 划分名称:训练集 (train),字节大小:1891438,样本数量:2301
- 划分名称:测试集 (test),字节大小:1608836,样本数量:1950
- 划分名称:验证集 (validation),字节大小:1605728,样本数量:1947
- 划分名称:其他集 (other),字节大小:15143,样本数量:19
- 划分名称:无效集 (invalidated),字节大小:649116,样本数量:777
下载大小:2057153
数据集总大小:5770261
配置项:
- 配置名称:默认配置 (default),数据文件:
- 训练集:data/train-*
- 测试集:data/test-*
- 验证集:data/validation-*
- 其他集:data/other-*
- 无效集:data/invalidated-*
提供机构:
aleadag
原始信息汇总
数据集概述
数据集特征
数据集包含以下特征:
client_id: 数据类型为字符串path: 数据类型为字符串text: 数据类型为字符串up_votes: 数据类型为整数down_votes: 数据类型为整数age: 数据类型为字符串gender: 数据类型为字符串accent: 数据类型为字符串locale: 数据类型为字符串segment: 数据类型为字符串utterance_pitch_mean: 数据类型为浮点数utterance_pitch_std: 数据类型为浮点数snr: 数据类型为浮点数c50: 数据类型为浮点数speaking_rate: 数据类型为字符串phonemes: 数据类型为字符串pitch: 数据类型为字符串noise: 数据类型为字符串reverberation: 数据类型为字符串speech_monotony: 数据类型为字符串text_description: 数据类型为字符串
数据集分割
数据集分为以下几个部分:
train: 大小为1891438字节,包含2301个样本test: 大小为1608836字节,包含1950个样本validation: 大小为1605728字节,包含1947个样本other: 大小为15143字节,包含19个样本invalidated: 大小为649116字节,包含777个样本
数据集大小
- 下载大小: 2057153字节
- 数据集总大小: 5770261字节
配置文件
数据集配置包括以下文件路径:
train: 路径为data/train-*test: 路径为data/test-*validation: 路径为data/validation-*other: 路径为data/other-*invalidated: 路径为data/invalidated-*



