tathagataraha/ficle
收藏Hugging Face2023-07-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tathagataraha/ficle
下载链接
链接失效反馈官方服务:
资源简介:
FICLE数据集是从FEVER数据集衍生而来的,专注于检测和解释声明与上下文之间的不一致性。数据集包含多个字段,如Claim、Context、Source等,用于详细描述每个样本的不一致性。数据集分为训练集、验证集和测试集,总共有8,055个样本。数据集的创建过程包括从FEVER数据集中选择带有‘refutes’标签的样本,并进行详细的注释,包括语法和语义两个阶段的注释。
FICLE数据集是从FEVER数据集衍生而来的,专注于检测和解释声明与上下文之间的不一致性。数据集包含多个字段,如Claim、Context、Source等,用于详细描述每个样本的不一致性。数据集分为训练集、验证集和测试集,总共有8,055个样本。数据集的创建过程包括从FEVER数据集中选择带有‘refutes’标签的样本,并进行详细的注释,包括语法和语义两个阶段的注释。
提供机构:
tathagataraha
原始信息汇总
数据集概述
数据集名称
FICLE
数据集大小
- 下载大小:1784422字节
- 数据集大小:3322717字节
- 大小类别:1K<n<10K
语言
- 英语(en)
许可
- GPL-3.0
任务类别
- 令牌分类
- 文本分类
- 文本生成
标签
- 跨度
- 解释
数据集结构
数据字段
Claim (string): 与事实或信息的一致性或不一致性相关的声明或命题。Context (string): 评估或比较声明的背景信息或背景。Source (string): 包含主谓语/相关块左侧实体的语言块。Source Indices (string): 源字符串中指示相关信息位置的特定索引或位置。Relation (string): 包含已识别不一致核心的动词/关系的语言块。Relation Indices (string): 关系字符串中突出显示相关信息位置的特定索引或位置。Target (string): 包含主谓语/相关块右侧实体的语言块。Target Indices (string): 目标字符串中指示相关信息位置的特定索引或位置。Inconsistent Claim Component (string): 与上下文不一致的声明中特定的语言块。Inconsistent Context-Span (string): 上下文句子中标记为与声明不一致的跨度或部分。Inconsistent Context-Span Indices (string): 上下文句子中指示不一致跨度的特定索引或位置。Inconsistency Type (string): 在声明和上下文中识别的不一致的类别或类型。Fine-grained Inconsistent Entity-Type (string): 导致声明或上下文中不一致的实体的特定详细类别或类型。Coarse Inconsistent Entity-Type (string): 导致声明或上下文中不一致的实体的更广泛或一般类别或类型。
数据分割
train: 6443样本validation: 806样本test: 806样本
数据集创建
数据收集和预处理
- 数据集是从FEVER数据集中提取的,专门使用标记为‘refutes’的样本。
注释
- 注释过程涉及两个迭代,第一轮专注于句法方面,第二轮专注于语义方面。
- 由四名注释者完成,其中两名是数据集的作者。
搜集汇总
数据集介绍

背景与挑战
背景概述
FICLE数据集是一个基于FEVER数据集构建的英文事实不一致性分类数据集,包含8,055个样本,专门用于识别和解释文本中的不一致性。该数据集通过详细标注不一致类型、组件和实体类型,支持对事实不一致性进行细粒度分类和解释,适用于自然语言处理任务如文本分类和生成。
以上内容由遇见数据集搜集并总结生成



