tathagataraha/ficle

Name: tathagataraha/ficle
Creator: tathagataraha
Published: 2023-07-18 11:00:53
License: 暂无描述

Hugging Face2023-07-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tathagataraha/ficle

下载链接

链接失效反馈

官方服务：

资源简介：

FICLE数据集是从FEVER数据集衍生而来的，专注于检测和解释声明与上下文之间的不一致性。数据集包含多个字段，如Claim、Context、Source等，用于详细描述每个样本的不一致性。数据集分为训练集、验证集和测试集，总共有8,055个样本。数据集的创建过程包括从FEVER数据集中选择带有‘refutes’标签的样本，并进行详细的注释，包括语法和语义两个阶段的注释。

提供机构：

tathagataraha

原始信息汇总

数据集概述

数据集名称

FICLE

数据集大小

下载大小：1784422字节
数据集大小：3322717字节
大小类别：1K<n<10K

语言

英语（en）

许可

GPL-3.0

任务类别

令牌分类
文本分类
文本生成

数据集结构

数据字段

Claim (string): 与事实或信息的一致性或不一致性相关的声明或命题。
Context (string): 评估或比较声明的背景信息或背景。
Source (string): 包含主谓语/相关块左侧实体的语言块。
Source Indices (string): 源字符串中指示相关信息位置的特定索引或位置。
Relation (string): 包含已识别不一致核心的动词/关系的语言块。
Relation Indices (string): 关系字符串中突出显示相关信息位置的特定索引或位置。
Target (string): 包含主谓语/相关块右侧实体的语言块。
Target Indices (string): 目标字符串中指示相关信息位置的特定索引或位置。
Inconsistent Claim Component (string): 与上下文不一致的声明中特定的语言块。
Inconsistent Context-Span (string): 上下文句子中标记为与声明不一致的跨度或部分。
Inconsistent Context-Span Indices (string): 上下文句子中指示不一致跨度的特定索引或位置。
Inconsistency Type (string): 在声明和上下文中识别的不一致的类别或类型。
Fine-grained Inconsistent Entity-Type (string): 导致声明或上下文中不一致的实体的特定详细类别或类型。
Coarse Inconsistent Entity-Type (string): 导致声明或上下文中不一致的实体的更广泛或一般类别或类型。

数据分割

train: 6443样本
validation: 806样本
test: 806样本

数据集创建

数据收集和预处理

数据集是从FEVER数据集中提取的，专门使用标记为‘refutes’的样本。

注释

注释过程涉及两个迭代，第一轮专注于句法方面，第二轮专注于语义方面。
由四名注释者完成，其中两名是数据集的作者。

搜集汇总

数据集介绍

背景与挑战

背景概述

FICLE数据集是一个基于FEVER数据集构建的英文事实不一致性分类数据集，包含8,055个样本，专门用于识别和解释文本中的不一致性。该数据集通过详细标注不一致类型、组件和实体类型，支持对事实不一致性进行细粒度分类和解释，适用于自然语言处理任务如文本分类和生成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集