five

tathagataraha/ficle

收藏
Hugging Face2023-07-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tathagataraha/ficle
下载链接
链接失效反馈
官方服务:
资源简介:
FICLE数据集是从FEVER数据集衍生而来的,专注于检测和解释声明与上下文之间的不一致性。数据集包含多个字段,如Claim、Context、Source等,用于详细描述每个样本的不一致性。数据集分为训练集、验证集和测试集,总共有8,055个样本。数据集的创建过程包括从FEVER数据集中选择带有‘refutes’标签的样本,并进行详细的注释,包括语法和语义两个阶段的注释。

FICLE数据集是从FEVER数据集衍生而来的,专注于检测和解释声明与上下文之间的不一致性。数据集包含多个字段,如Claim、Context、Source等,用于详细描述每个样本的不一致性。数据集分为训练集、验证集和测试集,总共有8,055个样本。数据集的创建过程包括从FEVER数据集中选择带有‘refutes’标签的样本,并进行详细的注释,包括语法和语义两个阶段的注释。
提供机构:
tathagataraha
原始信息汇总

数据集概述

数据集名称

FICLE

数据集大小

  • 下载大小:1784422字节
  • 数据集大小:3322717字节
  • 大小类别:1K<n<10K

语言

  • 英语(en)

许可

  • GPL-3.0

任务类别

  • 令牌分类
  • 文本分类
  • 文本生成

标签

  • 跨度
  • 解释

数据集结构

数据字段

  • Claim (string): 与事实或信息的一致性或不一致性相关的声明或命题。
  • Context (string): 评估或比较声明的背景信息或背景。
  • Source (string): 包含主谓语/相关块左侧实体的语言块。
  • Source Indices (string): 源字符串中指示相关信息位置的特定索引或位置。
  • Relation (string): 包含已识别不一致核心的动词/关系的语言块。
  • Relation Indices (string): 关系字符串中突出显示相关信息位置的特定索引或位置。
  • Target (string): 包含主谓语/相关块右侧实体的语言块。
  • Target Indices (string): 目标字符串中指示相关信息位置的特定索引或位置。
  • Inconsistent Claim Component (string): 与上下文不一致的声明中特定的语言块。
  • Inconsistent Context-Span (string): 上下文句子中标记为与声明不一致的跨度或部分。
  • Inconsistent Context-Span Indices (string): 上下文句子中指示不一致跨度的特定索引或位置。
  • Inconsistency Type (string): 在声明和上下文中识别的不一致的类别或类型。
  • Fine-grained Inconsistent Entity-Type (string): 导致声明或上下文中不一致的实体的特定详细类别或类型。
  • Coarse Inconsistent Entity-Type (string): 导致声明或上下文中不一致的实体的更广泛或一般类别或类型。

数据分割

  • train: 6443样本
  • validation: 806样本
  • test: 806样本

数据集创建

数据收集和预处理

  • 数据集是从FEVER数据集中提取的,专门使用标记为‘refutes’的样本。

注释

  • 注释过程涉及两个迭代,第一轮专注于句法方面,第二轮专注于语义方面。
  • 由四名注释者完成,其中两名是数据集的作者。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
FICLE数据集是一个基于FEVER数据集构建的英文事实不一致性分类数据集,包含8,055个样本,专门用于识别和解释文本中的不一致性。该数据集通过详细标注不一致类型、组件和实体类型,支持对事实不一致性进行细粒度分类和解释,适用于自然语言处理任务如文本分类和生成。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作