ImperialIndians23/nlp_cw_data_processed_augmented
收藏Hugging Face2024-03-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ImperialIndians23/nlp_cw_data_processed_augmented
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: par_id
dtype: string
- name: community
dtype: string
- name: text
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 1947507
num_examples: 9169
- name: valid
num_bytes: 479891
num_examples: 2293
download_size: 1489599
dataset_size: 2427398
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: valid
path: data/valid-*
---
数据集信息:
特征项如下:
- 段落ID(par_id):数据类型为字符串
- 社区(community):数据类型为字符串
- 文本(text):数据类型为字符串
- 标签(label):数据类型为64位整数(int64)
数据集划分如下:
- 训练集(train):占用字节数1947507,共包含9169个样本
- 验证集(valid):占用字节数479891,共包含2293个样本
下载总大小为1489599字节,数据集总存储大小为2427398字节。
数据集配置如下:
- 默认配置(default):数据文件对应划分如下:
- 训练集:数据路径为data/train-*
- 验证集:数据路径为data/valid-*
提供机构:
ImperialIndians23
原始信息汇总
数据集概述
数据集特征
- par_id: 字符串类型
- community: 字符串类型
- text: 字符串类型
- label: 64位整数类型
数据集分割
- train:
- 字节数: 1947507
- 样本数: 9169
- valid:
- 字节数: 479891
- 样本数: 2293
数据集大小
- 下载大小: 1489599 字节
- 数据集大小: 2427398 字节
配置信息
- 配置名称: default
- 数据文件:
- train: data/train-*
- valid: data/valid-*
- 数据文件:



