five

azarijafari/FarsTail

收藏
Hugging Face2023-07-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/azarijafari/FarsTail
下载链接
链接失效反馈
官方服务:
资源简介:
FarsTail是一个用于波斯语自然语言推理(NLI)任务的数据集。NLI任务的目标是确定前提(premise)和假设(hypothesis)之间的推理关系,分为三类:ENTAILMENT(假设可以从前提中推断出)、CONTRADICTION(假设与前提矛盾)和NEUTRAL(两者之间没有明显关系)。该数据集包含10,367个样本,分为训练集(7,266个实例)、验证集(1,537个实例)和测试集(1,564个实例)。数据集是从3,539个多项选择题中生成的。

FarsTail是一个用于波斯语自然语言推理(NLI)任务的数据集。NLI任务的目标是确定前提(premise)和假设(hypothesis)之间的推理关系,分为三类:ENTAILMENT(假设可以从前提中推断出)、CONTRADICTION(假设与前提矛盾)和NEUTRAL(两者之间没有明显关系)。该数据集包含10,367个样本,分为训练集(7,266个实例)、验证集(1,537个实例)和测试集(1,564个实例)。数据集是从3,539个多项选择题中生成的。
提供机构:
azarijafari
原始信息汇总

数据集概述

数据集名称

  • FarsTail

数据集描述

  • FarsTail 是一个用于自然语言推理(NLI)的波斯语数据集。NLI 任务旨在确定前提 p 和假设 h 之间的推理关系,分为“ENTAILMENT”、“CONTRADICTION”和“NEUTRAL”三个类别。

数据集规模

  • 总样本数:10,367
  • 训练集:7,266 样本
  • 验证集:1,537 样本
  • 测试集:1,564 样本

数据集来源

  • 数据集由3,539个多选题生成。

数据集结构

  • 训练集和验证集:包含三个列,分别是 premisehypothesislabel
  • 测试集:除上述三列外,还包括 hard(hypothesis)hard(overlap) 两列,用于指示样本是否属于基于假设和重叠的偏差模型定义的硬子集。

数据读取

  • 波斯语原始数据读取: python train_data = pd.read_csv(data/Train-word.csv, sep= ) val_data = pd.read_csv(data/Val-word.csv, sep= ) test_data = pd.read_csv(data/Test-word.csv, sep= )

  • 索引数据读取: python with np.load(data/Indexed-FarsTail.npz, allow_pickle=True) as f: train_ind, val_ind, test_ind, dictionary = f[train_ind], f[val_ind], f[test_ind], f[dictionary].item()

模型性能

  • 提供了多个模型在FarsTail训练集上的测试准确率,包括 DecompAtt、HBMP、ESIM 和 mBERT。

引用信息

  • 引用文献:Hossein Amirkhani, Mohammad AzariJafari, Soroush Faridan-Jahromi, Zeinab Kouhkan, Zohreh Pourjafari, Azadeh Amirak (2023). FarsTail: a Persian natural language inference dataset. Soft Computing.
  • DOI: 10.1007/s00500-023-08959-3
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作