five

aleadag/cv2_tags_tagged_generated

收藏
Hugging Face2024-04-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/aleadag/cv2_tags_tagged_generated
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: client_id dtype: string - name: path dtype: string - name: text dtype: string - name: up_votes dtype: int64 - name: down_votes dtype: int64 - name: age dtype: string - name: gender dtype: string - name: accent dtype: string - name: locale dtype: string - name: segment dtype: string - name: utterance_pitch_mean dtype: float32 - name: utterance_pitch_std dtype: float32 - name: snr dtype: float64 - name: c50 dtype: float64 - name: speaking_rate dtype: string - name: phonemes dtype: string - name: pitch dtype: string - name: noise dtype: string - name: reverberation dtype: string - name: speech_monotony dtype: string - name: text_description dtype: string splits: - name: train num_bytes: 1891438 num_examples: 2301 - name: test num_bytes: 1608836 num_examples: 1950 - name: validation num_bytes: 1605728 num_examples: 1947 - name: other num_bytes: 15143 num_examples: 19 - name: invalidated num_bytes: 649116 num_examples: 777 download_size: 2057153 dataset_size: 5770261 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* - split: validation path: data/validation-* - split: other path: data/other-* - split: invalidated path: data/invalidated-* ---

数据集信息: 特征: - 名称:客户端ID (client_id),数据类型:字符串 - 名称:文件路径 (path),数据类型:字符串 - 名称:文本 (text),数据类型:字符串 - 名称:点赞数 (up_votes),数据类型:64位整型 - 名称:反对票 (down_votes),数据类型:64位整型 - 名称:年龄 (age),数据类型:字符串 - 名称:性别 (gender),数据类型:字符串 - 名称:口音 (accent),数据类型:字符串 - 名称:语言区域 (locale),数据类型:字符串 - 名称:片段 (segment),数据类型:字符串 - 名称:话语平均基频 (utterance_pitch_mean),数据类型:单精度浮点型 - 名称:话语基频标准差 (utterance_pitch_std),数据类型:单精度浮点型 - 名称:信噪比 (SNR),数据类型:双精度浮点型 - 名称:C50清晰度指标 (c50),数据类型:双精度浮点型 - 名称:说话速率 (speaking_rate),数据类型:字符串 - 名称:音素 (phonemes),数据类型:字符串 - 名称:基频 (pitch),数据类型:字符串 - 名称:噪声 (noise),数据类型:字符串 - 名称:混响 (reverberation),数据类型:字符串 - 名称:语音单调度 (speech_monotony),数据类型:字符串 - 名称:文本描述 (text_description),数据类型:字符串 数据集划分: - 划分名称:训练集 (train),字节大小:1891438,样本数量:2301 - 划分名称:测试集 (test),字节大小:1608836,样本数量:1950 - 划分名称:验证集 (validation),字节大小:1605728,样本数量:1947 - 划分名称:其他集 (other),字节大小:15143,样本数量:19 - 划分名称:无效集 (invalidated),字节大小:649116,样本数量:777 下载大小:2057153 数据集总大小:5770261 配置项: - 配置名称:默认配置 (default),数据文件: - 训练集:data/train-* - 测试集:data/test-* - 验证集:data/validation-* - 其他集:data/other-* - 无效集:data/invalidated-*
提供机构:
aleadag
原始信息汇总

数据集概述

数据集特征

数据集包含以下特征:

  • client_id: 数据类型为字符串
  • path: 数据类型为字符串
  • text: 数据类型为字符串
  • up_votes: 数据类型为整数
  • down_votes: 数据类型为整数
  • age: 数据类型为字符串
  • gender: 数据类型为字符串
  • accent: 数据类型为字符串
  • locale: 数据类型为字符串
  • segment: 数据类型为字符串
  • utterance_pitch_mean: 数据类型为浮点数
  • utterance_pitch_std: 数据类型为浮点数
  • snr: 数据类型为浮点数
  • c50: 数据类型为浮点数
  • speaking_rate: 数据类型为字符串
  • phonemes: 数据类型为字符串
  • pitch: 数据类型为字符串
  • noise: 数据类型为字符串
  • reverberation: 数据类型为字符串
  • speech_monotony: 数据类型为字符串
  • text_description: 数据类型为字符串

数据集分割

数据集分为以下几个部分:

  • train: 大小为1891438字节,包含2301个样本
  • test: 大小为1608836字节,包含1950个样本
  • validation: 大小为1605728字节,包含1947个样本
  • other: 大小为15143字节,包含19个样本
  • invalidated: 大小为649116字节,包含777个样本

数据集大小

  • 下载大小: 2057153字节
  • 数据集总大小: 5770261字节

配置文件

数据集配置包括以下文件路径:

  • train: 路径为data/train-*
  • test: 路径为data/test-*
  • validation: 路径为data/validation-*
  • other: 路径为data/other-*
  • invalidated: 路径为data/invalidated-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作