wenhu/tab_fact
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/wenhu/tab_fact
下载链接
链接失效反馈官方服务:
资源简介:
TabFact是一个大规模数据集,包含16k个维基百科表格作为证据,以及118k条人工标注的陈述,用于基于半结构化证据的事实验证任务。陈述被标注为ENTAILED(蕴含)或REFUTED(反驳)。该数据集具有挑战性,因为它涉及软语言推理和硬符号推理。
TabFact是一个大规模数据集,包含16k个维基百科表格作为证据,以及118k条人工标注的陈述,用于基于半结构化证据的事实验证任务。陈述被标注为ENTAILED(蕴含)或REFUTED(反驳)。该数据集具有挑战性,因为它涉及软语言推理和硬符号推理。
提供机构:
wenhu
原始信息汇总
数据集概述
- 名称: TabFact
- 语言: 英语 (en)
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 大小: 100K<n<1M
- 来源: 原始数据
- 任务类别: 文本分类
- 任务ID: 事实核查 (fact-checking)
- 论文代码ID: tabfact
- 美观名称: TabFact
数据集结构
配置: tab_fact
- 特征:
- id: int32
- table_id: string
- table_text: string
- table_caption: string
- statement: string
- label:
- class_label:
- names:
- 0: refuted
- 1: entailed
- names:
- class_label:
- 分割:
- train:
- num_bytes: 99852664
- num_examples: 92283
- validation:
- num_bytes: 13846872
- num_examples: 12792
- test:
- num_bytes: 13493391
- num_examples: 12779
- download_size: 196508436
- dataset_size: 127192927
- train:
配置: blind_test
- 特征:
- id: int32
- table_id: string
- table_text: string
- table_caption: string
- statement: string
- test_id: string
- 分割:
- test:
- num_bytes: 10954442
- num_examples: 9750
- download_size: 196508436
- dataset_size: 10954442
- test:
数据集创建
- 注释创建者: 众包
- 语言创建者: 众包
搜集汇总
数据集介绍

构建方式
TabFact数据集的构建基于大规模的维基百科表格,通过众包方式收集了118,000条人类标注的陈述,旨在验证这些陈述在给定表格证据下的真实性。数据集的构建过程涉及从维基百科中提取表格,并生成与这些表格相关的陈述,随后通过众包平台进行标注,标注结果分为‘ENTAILED’(支持)和‘REFUTED’(反驳)两类。
特点
TabFact数据集的显著特点在于其结合了结构化证据(表格)与非结构化陈述的验证任务,涵盖了软语言推理和硬符号推理的双重挑战。数据集规模庞大,包含16,000个维基百科表格和118,000条标注陈述,适用于大规模事实验证研究。
使用方法
TabFact数据集可用于训练和评估基于表格的事实验证模型。用户可以通过加载数据集的训练、验证和测试分割,利用表格内容和陈述进行模型训练。数据集的特征包括表格ID、表格文本、表格标题、陈述和标签,标签指示陈述是否被表格支持或反驳。
背景与挑战
背景概述
TabFact数据集由Wenhu Chen等人于2020年创建,旨在推动基于半结构化证据的事实验证研究。该数据集包含了16,000个维基百科表格作为证据,并附有118,000条人工标注的陈述,这些陈述被标记为‘ENTAILED’或‘REFUTED’。TabFact的提出填补了现有研究中对结构化证据(如表格、图表和数据库)进行事实验证的空白,尤其是在自然语言理解和语义表示领域。该数据集的发布不仅为研究者提供了一个大规模的基准,还为推动基于表格的事实验证技术的发展提供了重要资源。
当前挑战
TabFact数据集的构建面临多重挑战。首先,从维基百科中提取和处理大量表格数据需要复杂的预处理和规范化步骤,确保数据的准确性和一致性。其次,标注过程涉及复杂的语言推理和符号推理,要求标注者具备较高的语言理解能力和逻辑推理能力。此外,数据集中可能存在的偏见和噪声问题也是一大挑战,需要通过精细的标注和数据清洗来解决。最后,如何设计有效的模型来处理半结构化数据并进行准确的事实验证,仍然是该领域面临的核心技术难题。
常用场景
经典使用场景
TabFact数据集在基于表格的事实验证任务中展现了其经典应用场景。该数据集通过结合结构化的表格数据与自然语言陈述,为模型提供了丰富的训练和评估资源。研究者们利用TabFact进行表格事实验证模型的开发与优化,旨在提升模型对表格数据的语义理解和推理能力。通过将表格内容与陈述进行对比,模型能够判断陈述是否与表格信息一致,从而实现高效的事实验证。
解决学术问题
TabFact数据集解决了现有研究中对结构化数据(如表格)进行事实验证的空白问题。传统的事实验证研究主要集中在非结构化文本上,而TabFact通过引入大规模的表格数据,填补了这一领域的研究空白。该数据集不仅推动了自然语言处理领域对结构化数据的理解与处理能力,还为语义推理和符号推理的结合提供了新的研究方向,具有重要的学术意义。
衍生相关工作
TabFact数据集的发布激发了大量相关研究工作。研究者们基于TabFact开发了多种表格事实验证模型,探索了不同的神经网络架构和推理机制。例如,一些研究提出了结合图神经网络和自然语言处理技术的混合模型,以更好地捕捉表格中的复杂关系。此外,TabFact还推动了跨领域研究,如将表格数据与视觉信息结合,开发多模态事实验证系统,进一步拓展了该领域的研究边界。
以上内容由遇见数据集搜集并总结生成



