aleadag/cv2_tags_tagged_generated

Name: aleadag/cv2_tags_tagged_generated
Creator: aleadag
Published: 2024-04-19 04:43:19
License: 暂无描述

Hugging Face2024-04-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/aleadag/cv2_tags_tagged_generated

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: client_id dtype: string - name: path dtype: string - name: text dtype: string - name: up_votes dtype: int64 - name: down_votes dtype: int64 - name: age dtype: string - name: gender dtype: string - name: accent dtype: string - name: locale dtype: string - name: segment dtype: string - name: utterance_pitch_mean dtype: float32 - name: utterance_pitch_std dtype: float32 - name: snr dtype: float64 - name: c50 dtype: float64 - name: speaking_rate dtype: string - name: phonemes dtype: string - name: pitch dtype: string - name: noise dtype: string - name: reverberation dtype: string - name: speech_monotony dtype: string - name: text_description dtype: string splits: - name: train num_bytes: 1891438 num_examples: 2301 - name: test num_bytes: 1608836 num_examples: 1950 - name: validation num_bytes: 1605728 num_examples: 1947 - name: other num_bytes: 15143 num_examples: 19 - name: invalidated num_bytes: 649116 num_examples: 777 download_size: 2057153 dataset_size: 5770261 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* - split: validation path: data/validation-* - split: other path: data/other-* - split: invalidated path: data/invalidated-* ---

数据集信息：特征： - 名称：客户端ID (client_id)，数据类型：字符串 - 名称：文件路径 (path)，数据类型：字符串 - 名称：文本 (text)，数据类型：字符串 - 名称：点赞数 (up_votes)，数据类型：64位整型 - 名称：反对票 (down_votes)，数据类型：64位整型 - 名称：年龄 (age)，数据类型：字符串 - 名称：性别 (gender)，数据类型：字符串 - 名称：口音 (accent)，数据类型：字符串 - 名称：语言区域 (locale)，数据类型：字符串 - 名称：片段 (segment)，数据类型：字符串 - 名称：话语平均基频 (utterance_pitch_mean)，数据类型：单精度浮点型 - 名称：话语基频标准差 (utterance_pitch_std)，数据类型：单精度浮点型 - 名称：信噪比 (SNR)，数据类型：双精度浮点型 - 名称：C50清晰度指标 (c50)，数据类型：双精度浮点型 - 名称：说话速率 (speaking_rate)，数据类型：字符串 - 名称：音素 (phonemes)，数据类型：字符串 - 名称：基频 (pitch)，数据类型：字符串 - 名称：噪声 (noise)，数据类型：字符串 - 名称：混响 (reverberation)，数据类型：字符串 - 名称：语音单调度 (speech_monotony)，数据类型：字符串 - 名称：文本描述 (text_description)，数据类型：字符串数据集划分： - 划分名称：训练集 (train)，字节大小：1891438，样本数量：2301 - 划分名称：测试集 (test)，字节大小：1608836，样本数量：1950 - 划分名称：验证集 (validation)，字节大小：1605728，样本数量：1947 - 划分名称：其他集 (other)，字节大小：15143，样本数量：19 - 划分名称：无效集 (invalidated)，字节大小：649116，样本数量：777 下载大小：2057153 数据集总大小：5770261 配置项： - 配置名称：默认配置 (default)，数据文件： - 训练集：data/train-* - 测试集：data/test-* - 验证集：data/validation-* - 其他集：data/other-* - 无效集：data/invalidated-*

提供机构：

aleadag

原始信息汇总

数据集概述

数据集特征

数据集包含以下特征：

client_id: 数据类型为字符串
path: 数据类型为字符串
text: 数据类型为字符串
up_votes: 数据类型为整数
down_votes: 数据类型为整数
age: 数据类型为字符串
gender: 数据类型为字符串
accent: 数据类型为字符串
locale: 数据类型为字符串
segment: 数据类型为字符串
utterance_pitch_mean: 数据类型为浮点数
utterance_pitch_std: 数据类型为浮点数
snr: 数据类型为浮点数
c50: 数据类型为浮点数
speaking_rate: 数据类型为字符串
phonemes: 数据类型为字符串
pitch: 数据类型为字符串
noise: 数据类型为字符串
reverberation: 数据类型为字符串
speech_monotony: 数据类型为字符串
text_description: 数据类型为字符串

数据集分割

数据集分为以下几个部分：

train: 大小为1891438字节，包含2301个样本
test: 大小为1608836字节，包含1950个样本
validation: 大小为1605728字节，包含1947个样本
other: 大小为15143字节，包含19个样本
invalidated: 大小为649116字节，包含777个样本

数据集大小

下载大小: 2057153字节
数据集总大小: 5770261字节

配置文件

数据集配置包括以下文件路径：

train: 路径为data/train-*
test: 路径为data/test-*
validation: 路径为data/validation-*
other: 路径为data/other-*
invalidated: 路径为data/invalidated-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集