seba/mnli_tokenized_bert_base_ctx_128_v2
收藏Hugging Face2024-02-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/seba/mnli_tokenized_bert_base_ctx_128_v2
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: premise
dtype: string
- name: hypothesis
dtype: string
- name: label
dtype:
class_label:
names:
'0': entailment
'1': neutral
'2': contradiction
- name: idx
dtype: int32
- name: input_ids
sequence: int32
- name: decoded
dtype: string
- name: special_tokens_mask
sequence: int8
splits:
- name: train
num_bytes: 614569405
num_examples: 392702
- name: validation
num_bytes: 30834557
num_examples: 19647
- name: test
num_bytes: 30775355
num_examples: 19643
download_size: 167542129
dataset_size: 676179317
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
提供机构:
seba
原始信息汇总
数据集概述
特征信息
- premise: 类型为字符串。
- hypothesis: 类型为字符串。
- label: 类型为分类标签,包含以下类别:
- 0: entailment
- 1: neutral
- 2: contradiction
- idx: 类型为32位整数。
- input_ids: 序列类型,元素为32位整数。
- decoded: 类型为字符串。
- special_tokens_mask: 序列类型,元素为8位整数。
数据分割
- train: 包含392702个样本,占用614569405字节。
- validation: 包含19647个样本,占用30834557字节。
- test: 包含19643个样本,占用30775355字节。
数据集大小
- 下载大小: 167542129字节。
- 数据集大小: 676179317字节。
配置信息
- config_name: default
- data_files:
- train: 路径为
data/train-* - validation: 路径为
data/validation-* - test: 路径为
data/test-*
- train: 路径为
- data_files:



