azarijafari/FarsTail
收藏Hugging Face2023-07-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/azarijafari/FarsTail
下载链接
链接失效反馈官方服务:
资源简介:
FarsTail是一个用于波斯语自然语言推理(NLI)任务的数据集。NLI任务的目标是确定前提(premise)和假设(hypothesis)之间的推理关系,分为三类:ENTAILMENT(假设可以从前提中推断出)、CONTRADICTION(假设与前提矛盾)和NEUTRAL(两者之间没有明显关系)。该数据集包含10,367个样本,分为训练集(7,266个实例)、验证集(1,537个实例)和测试集(1,564个实例)。数据集是从3,539个多项选择题中生成的。
FarsTail是一个用于波斯语自然语言推理(NLI)任务的数据集。NLI任务的目标是确定前提(premise)和假设(hypothesis)之间的推理关系,分为三类:ENTAILMENT(假设可以从前提中推断出)、CONTRADICTION(假设与前提矛盾)和NEUTRAL(两者之间没有明显关系)。该数据集包含10,367个样本,分为训练集(7,266个实例)、验证集(1,537个实例)和测试集(1,564个实例)。数据集是从3,539个多项选择题中生成的。
提供机构:
azarijafari
原始信息汇总
数据集概述
数据集名称
- FarsTail
数据集描述
- FarsTail 是一个用于自然语言推理(NLI)的波斯语数据集。NLI 任务旨在确定前提
p和假设h之间的推理关系,分为“ENTAILMENT”、“CONTRADICTION”和“NEUTRAL”三个类别。
数据集规模
- 总样本数:10,367
- 训练集:7,266 样本
- 验证集:1,537 样本
- 测试集:1,564 样本
数据集来源
- 数据集由3,539个多选题生成。
数据集结构
- 训练集和验证集:包含三个列,分别是
premise、hypothesis和label。 - 测试集:除上述三列外,还包括 hard(hypothesis) 和 hard(overlap) 两列,用于指示样本是否属于基于假设和重叠的偏差模型定义的硬子集。
数据读取
-
波斯语原始数据读取: python train_data = pd.read_csv(data/Train-word.csv, sep= ) val_data = pd.read_csv(data/Val-word.csv, sep= ) test_data = pd.read_csv(data/Test-word.csv, sep= )
-
索引数据读取: python with np.load(data/Indexed-FarsTail.npz, allow_pickle=True) as f: train_ind, val_ind, test_ind, dictionary = f[train_ind], f[val_ind], f[test_ind], f[dictionary].item()
模型性能
- 提供了多个模型在FarsTail训练集上的测试准确率,包括 DecompAtt、HBMP、ESIM 和 mBERT。
引用信息
- 引用文献:Hossein Amirkhani, Mohammad AzariJafari, Soroush Faridan-Jahromi, Zeinab Kouhkan, Zohreh Pourjafari, Azadeh Amirak (2023). FarsTail: a Persian natural language inference dataset. Soft Computing.
- DOI: 10.1007/s00500-023-08959-3



