seba/mnli_tokenized_bert_base_ctx_128

Name: seba/mnli_tokenized_bert_base_ctx_128
Creator: seba
Published: 2024-02-01 00:09:18
License: 暂无描述

Hugging Face2024-02-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/seba/mnli_tokenized_bert_base_ctx_128

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如前提（premise）、假设（hypothesis）、标签（label）、索引（idx）、输入ID（input_ids）、解码文本（decoded）和特殊标记掩码（special_tokens_mask）。标签分为三类：蕴含（entailment）、中立（neutral）和矛盾（contradiction）。数据集分为训练集、验证集和测试集，分别包含392702、19647和19643个样本。数据集的下载大小为167542129字节，总大小为676179317字节。

提供机构：

seba

原始信息汇总

数据集信息

特征

premise: 类型为字符串
hypothesis: 类型为字符串
label: 类型为分类标签，包含以下类别：
- 0: entailment
- 1: neutral
- 2: contradiction
idx: 类型为32位整数
input_ids: 序列类型为32位整数
decoded: 类型为字符串
special_tokens_mask: 序列类型为8位整数

数据分割

train: 字节数为614569405，样本数为392702
validation: 字节数为30834557，样本数为19647
test: 字节数为30775355，样本数为19643

数据集大小

下载大小: 167542129字节
数据集大小: 676179317字节

配置

default 配置包含以下数据文件：
- train: 路径为data/train-*
- validation: 路径为data/validation-*
- test: 路径为data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集