ummagumm-a/cup_it_ds_split_with_lang_with_topic
收藏Hugging Face2023-05-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ummagumm-a/cup_it_ds_split_with_lang_with_topic
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: comments
list:
- name: score
dtype: int64
- name: text
dtype: string
- name: lang
dtype: string
- name: lang_score
dtype: float64
- name: topic
dtype: float64
- name: topic_prob
dtype: float64
- name: was_outlier
dtype: float64
splits:
- name: train
num_bytes: 219441173
num_examples: 79296
- name: validation
num_bytes: 24600381
num_examples: 8811
- name: test
num_bytes: 40295844
num_examples: 14004
download_size: 178475671
dataset_size: 284337398
---
# Dataset Card for "cup_it_ds_split_with_lang_with_topic"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
ummagumm-a
原始信息汇总
数据集概述
数据集名称
- 名称:cup_it_ds_split_with_lang_with_topic
数据集特征
- text:字符串类型
- comments:列表类型,包含以下子特征:
- score:整数类型(int64)
- text:字符串类型
- lang:字符串类型
- lang_score:浮点数类型(float64)
- topic:浮点数类型(float64)
- topic_prob:浮点数类型(float64)
- was_outlier:浮点数类型(float64)
数据集划分
- 训练集:
- 数据量:79296个样本
- 存储大小:219441173字节
- 验证集:
- 数据量:8811个样本
- 存储大小:24600381字节
- 测试集:
- 数据量:14004个样本
- 存储大小:40295844字节
数据集大小
- 下载大小:178475671字节
- 数据集总大小:284337398字节



