BahaaEldin0/openai_summarize_comparisons_dataset_with_prompts_2_percent_with_labels
收藏Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BahaaEldin0/openai_summarize_comparisons_dataset_with_prompts_2_percent_with_labels
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: prompted
dtype: string
- name: label
dtype: int64
- name: input_ids
sequence: int32
- name: token_type_ids
sequence: int8
- name: attention_mask
sequence: int8
splits:
- name: train
num_bytes: 15363786
num_examples: 3314
- name: validation
num_bytes: 5530503
num_examples: 1186
- name: test
num_bytes: 14146690
num_examples: 3026
download_size: 11184469
dataset_size: 35040979
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
The dataset includes multiple features such as prompted (string type), label (integer type), and sequence types input_ids, token_type_ids, and attention_mask. It is divided into train, validation, and test sets, containing 3314, 1186, and 3026 samples respectively. The download size of the dataset is 11184469 bytes, and the actual size is 35040979 bytes.
提供机构:
BahaaEldin0
原始信息汇总
数据集概述
数据集特征
- prompted: 数据类型为字符串。
- label: 数据类型为整数,具体为int64。
- input_ids: 序列数据类型为int32。
- token_type_ids: 序列数据类型为int8。
- attention_mask: 序列数据类型为int8。
数据集划分
- 训练集: 包含3314个样本,占用15363786字节。
- 验证集: 包含1186个样本,占用5530503字节。
- 测试集: 包含3026个样本,占用14146690字节。
数据集大小
- 下载大小: 11184469字节。
- 数据集总大小: 35040979字节。
数据文件配置
- 配置名称: default
- 训练集路径: data/train-*
- 验证集路径: data/validation-*
- 测试集路径: data/test-*



