maximoss/fracas

Name: maximoss/fracas
Creator: maximoss
Published: 2024-07-17 13:17:56
License: 暂无描述

Hugging Face2024-07-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/maximoss/fracas

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是FraCaS测试套件的法语版本，同时也包含原始的英语版本，格式为TSV。FraCaS代表“计算语义框架”。该数据集可用于自然语言推理（NLI）任务，也称为文本蕴含识别（RTE），这是一个句子对分类任务。此外，它还可用于问答（QA）任务（当使用`question`和`answer`列而不是`hypothesis`和`label`列时）。数据集中包含多个字段，如前提、假设、标签、问题、答案等，并且提供了数据的分割和分布情况。

This repository contains the French version of the FraCaS Test Suite introduced in [this paper](https://aclanthology.org/2020.lrec-1.721.pdf), as well as the original English one, in a TSV format (as opposed to the XML format provided with the original paper). FraCaS stands for Framework for Computational Semantics. This dataset can be used for the task of Natural Language Inference (NLI), also known as Recognizing Textual Entailment (RTE), which is a sentence-pair classification task. It can also be used for the task of Question Answering (QA) (when using the columns `question` and `answer` instead of `hypothesis` and `label`, respectively).

提供机构：

maximoss

原始信息汇总

数据集卡片 for Dataset Name

数据集描述

数据集概述

该仓库包含法语版本的FraCaS测试套件，以及原始的英语版本，采用TSV格式（与原始论文提供的XML格式不同）。FraCaS代表“计算语义框架”。

支持的任务和排行榜

该数据集可用于自然语言推理（NLI）任务，也称为识别文本蕴含（RTE），这是一个句子对分类任务。

它还可以用于问答（QA）任务（当使用question和answer列而不是hypothesis和label列时）。

数据集结构

数据字段

id: 索引号。
premises: 该示例提供的所有前提，以法语连接。
hypothesis: 目标语言（法语）中的翻译假设。
label: 分类标签，可能的值为0（entailment），1（neutral），2（contradiction），或undef（未定义）。
question: 以问题的形式出现的假设，用法语表示。
answer: 问题的答案，可能的值为Yes（0），Dont know / Unknown（1），No（2），undef，或包含资格或详述的较长短语，如Yes, on one reading。
premises_original: 该示例提供的所有前提，以原始语言（英语）连接。
premise1: 第一个前提，用英语表示。
premise1_original: 第一个前提，用英语表示。
premise2: 当可用时，第二个前提，用法语表示。
premise2_original: 当可用时，第二个前提，用英语表示。
premise3: 当可用时，第三个前提，用法语表示。
premise3_original: 当可用时，第三个前提，用英语表示。
premise4: 当可用时，第四个前提，用法语表示。
premise4_original: 当可用时，第四个前提，用英语表示。
premise5: 当可用时，第五个前提，用法语表示。
premise5_original: 当可用时，第五个前提，用英语表示。
hypothesis_original: 英语中的假设。
question_original: 以问题的形式出现的假设，用英语表示。
note: 来自源文档的文本，旨在解释或证明答案，或添加到一些问题中的注释，以解释翻译过程中出现的问题。
topic: 问题集/主题。

数据分割

前提数量分布如下：

# 前提	# 问题	% 问题
1	192	55.5%
2	122	35.3%
3	29	8.4%
4	2	0.6%
5	1	0.3%

答案分布大致如下：

# 问题	百分比	答案
180	52%	Yes
94	27%	Dont know
31	9%	No
41	12%	[其他/复杂]

按主题的细分如下：

sec	主题	开始	计数	%	单前提
1	量词	1	80	23%	50
2	复数	81	33	10%	24
3	回指	114	28	8%	6
4	省略	142	55	16%	25
5	形容词	197	23	7%	15
6	比较级	220	31	9%	16
7	时间	251	75	22%	39
8	动词	326	8	2%	8
9	态度	334	4	10%	9

5,000+

优质数据集

54 个

任务类型

进入经典数据集