five

maximoss/fracas

收藏
Hugging Face2024-07-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/maximoss/fracas
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是FraCaS测试套件的法语版本,同时也包含原始的英语版本,格式为TSV。FraCaS代表“计算语义框架”。该数据集可用于自然语言推理(NLI)任务,也称为文本蕴含识别(RTE),这是一个句子对分类任务。此外,它还可用于问答(QA)任务(当使用`question`和`answer`列而不是`hypothesis`和`label`列时)。数据集中包含多个字段,如前提、假设、标签、问题、答案等,并且提供了数据的分割和分布情况。

This repository contains the French version of the FraCaS Test Suite introduced in [this paper](https://aclanthology.org/2020.lrec-1.721.pdf), as well as the original English one, in a TSV format (as opposed to the XML format provided with the original paper). FraCaS stands for Framework for Computational Semantics. This dataset can be used for the task of Natural Language Inference (NLI), also known as Recognizing Textual Entailment (RTE), which is a sentence-pair classification task. It can also be used for the task of Question Answering (QA) (when using the columns `question` and `answer` instead of `hypothesis` and `label`, respectively).
提供机构:
maximoss
原始信息汇总

数据集卡片 for Dataset Name

数据集描述

数据集概述

该仓库包含法语版本的FraCaS测试套件,以及原始的英语版本,采用TSV格式(与原始论文提供的XML格式不同)。FraCaS代表“计算语义框架”。

支持的任务和排行榜

该数据集可用于自然语言推理(NLI)任务,也称为识别文本蕴含(RTE),这是一个句子对分类任务。

它还可以用于问答(QA)任务(当使用questionanswer列而不是hypothesislabel列时)。

数据集结构

数据字段

  • id: 索引号。
  • premises: 该示例提供的所有前提,以法语连接。
  • hypothesis: 目标语言(法语)中的翻译假设。
  • label: 分类标签,可能的值为0(entailment),1(neutral),2(contradiction),或undef(未定义)。
  • question: 以问题的形式出现的假设,用法语表示。
  • answer: 问题的答案,可能的值为Yes(0),Dont know / Unknown(1),No(2),undef,或包含资格或详述的较长短语,如Yes, on one reading
  • premises_original: 该示例提供的所有前提,以原始语言(英语)连接。
  • premise1: 第一个前提,用英语表示。
  • premise1_original: 第一个前提,用英语表示。
  • premise2: 当可用时,第二个前提,用法语表示。
  • premise2_original: 当可用时,第二个前提,用英语表示。
  • premise3: 当可用时,第三个前提,用法语表示。
  • premise3_original: 当可用时,第三个前提,用英语表示。
  • premise4: 当可用时,第四个前提,用法语表示。
  • premise4_original: 当可用时,第四个前提,用英语表示。
  • premise5: 当可用时,第五个前提,用法语表示。
  • premise5_original: 当可用时,第五个前提,用英语表示。
  • hypothesis_original: 英语中的假设。
  • question_original: 以问题的形式出现的假设,用英语表示。
  • note: 来自源文档的文本,旨在解释或证明答案,或添加到一些问题中的注释,以解释翻译过程中出现的问题。
  • topic: 问题集/主题。

数据分割

前提数量分布如下:

# 前提 # 问题 % 问题
1 192 55.5%
2 122 35.3%
3 29 8.4%
4 2 0.6%
5 1 0.3%

答案分布大致如下:

# 问题 百分比 答案
180 52% Yes
94 27% Dont know
31 9% No
41 12% [其他/复杂]

按主题的细分如下:

sec 主题 开始 计数 % 单前提
1 量词 1 80 23% 50
2 复数 81 33 10% 24
3 回指 114 28 8% 6
4 省略 142 55 16% 25
5 形容词 197 23 7% 15
6 比较级 220 31 9% 16
7 时间 251 75 22% 39
8 动词 326 8 2% 8
9 态度 334 4 10% 9
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作