azarijafari/FarsTail

Name: azarijafari/FarsTail
Creator: azarijafari
Published: 2023-07-26 16:21:04
License: 暂无描述

Hugging Face2023-07-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/azarijafari/FarsTail

下载链接

链接失效反馈

官方服务：

资源简介：

FarsTail是一个用于波斯语自然语言推理（NLI）任务的数据集。NLI任务的目标是确定前提（premise）和假设（hypothesis）之间的推理关系，分为三类：ENTAILMENT（假设可以从前提中推断出）、CONTRADICTION（假设与前提矛盾）和NEUTRAL（两者之间没有明显关系）。该数据集包含10,367个样本，分为训练集（7,266个实例）、验证集（1,537个实例）和测试集（1,564个实例）。数据集是从3,539个多项选择题中生成的。

提供机构：

azarijafari

原始信息汇总

数据集概述

数据集名称

FarsTail

数据集描述

FarsTail 是一个用于自然语言推理（NLI）的波斯语数据集。NLI 任务旨在确定前提 p 和假设 h 之间的推理关系，分为“ENTAILMENT”、“CONTRADICTION”和“NEUTRAL”三个类别。

数据集规模

总样本数：10,367
训练集：7,266 样本
验证集：1,537 样本
测试集：1,564 样本

数据集来源

数据集由3,539个多选题生成。

数据集结构

训练集和验证集：包含三个列，分别是 premise、hypothesis 和 label。
测试集：除上述三列外，还包括 hard(hypothesis) 和 hard(overlap) 两列，用于指示样本是否属于基于假设和重叠的偏差模型定义的硬子集。

数据读取

波斯语原始数据读取： python train_data = pd.read_csv(data/Train-word.csv, sep= ) val_data = pd.read_csv(data/Val-word.csv, sep= ) test_data = pd.read_csv(data/Test-word.csv, sep= )
索引数据读取： python with np.load(data/Indexed-FarsTail.npz, allow_pickle=True) as f: train_ind, val_ind, test_ind, dictionary = f[train_ind], f[val_ind], f[test_ind], f[dictionary].item()

模型性能

提供了多个模型在FarsTail训练集上的测试准确率，包括 DecompAtt、HBMP、ESIM 和 mBERT。

引用信息

引用文献：Hossein Amirkhani, Mohammad AzariJafari, Soroush Faridan-Jahromi, Zeinab Kouhkan, Zohreh Pourjafari, Azadeh Amirak (2023). FarsTail: a Persian natural language inference dataset. Soft Computing.
DOI: 10.1007/s00500-023-08959-3

5,000+

优质数据集

54 个

任务类型

进入经典数据集