seba/mnli_tokenized_bert_base_ctx_128
收藏Hugging Face2024-02-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/seba/mnli_tokenized_bert_base_ctx_128
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如前提(premise)、假设(hypothesis)、标签(label)、索引(idx)、输入ID(input_ids)、解码文本(decoded)和特殊标记掩码(special_tokens_mask)。标签分为三类:蕴含(entailment)、中立(neutral)和矛盾(contradiction)。数据集分为训练集、验证集和测试集,分别包含392702、19647和19643个样本。数据集的下载大小为167542129字节,总大小为676179317字节。
该数据集包含多个特征,如前提(premise)、假设(hypothesis)、标签(label)、索引(idx)、输入ID(input_ids)、解码文本(decoded)和特殊标记掩码(special_tokens_mask)。标签分为三类:蕴含(entailment)、中立(neutral)和矛盾(contradiction)。数据集分为训练集、验证集和测试集,分别包含392702、19647和19643个样本。数据集的下载大小为167542129字节,总大小为676179317字节。
提供机构:
seba
原始信息汇总
数据集信息
特征
- premise: 类型为字符串
- hypothesis: 类型为字符串
- label: 类型为分类标签,包含以下类别:
- 0: entailment
- 1: neutral
- 2: contradiction
- idx: 类型为32位整数
- input_ids: 序列类型为32位整数
- decoded: 类型为字符串
- special_tokens_mask: 序列类型为8位整数
数据分割
- train: 字节数为614569405,样本数为392702
- validation: 字节数为30834557,样本数为19647
- test: 字节数为30775355,样本数为19643
数据集大小
- 下载大小: 167542129字节
- 数据集大小: 676179317字节
配置
- default 配置包含以下数据文件:
- train: 路径为
data/train-* - validation: 路径为
data/validation-* - test: 路径为
data/test-*
- train: 路径为



