five

SciTabAlign

收藏
arXiv2025-06-12 更新2025-06-14 收录
下载链接:
https://github.com/Alab-NII/SciTabAlign
下载链接
链接失效反馈
官方服务:
资源简介:
SciTabAlign数据集是针对科学论文中的表-文对齐任务而构建的,它要求模型不仅预测陈述的真实性,还必须识别对验证陈述至关重要的表格单元格。该数据集由372个经过人工标注的样本组成,每个样本包含一个陈述、一个表格和一组被标注为支持或反驳该陈述的单元格。SciTabAlign数据集的创建过程包括对SciTab数据集中支持的陈述和反驳的陈述进行人工标注,并引入了一个包含五种模糊类型的分类法,用于处理在标注过程中遇到的边缘情况。该数据集可用于评估各种大型语言模型在科学事实验证任务中的推理和可解释性能力,并推动科学阅读工具的发展,以提高表格证据的可访问性和可解释性。

The SciTabAlign dataset is developed for the table-text alignment task in scientific papers. It mandates models to not only predict the veracity of a given statement, but also identify the table cells critical to verifying that statement. This dataset comprises 372 manually annotated samples, each containing a statement, a table, and a set of cells labeled as either supporting or refuting the statement. The construction of SciTabAlign involves manually annotating supporting and refuting statements from the original SciTab dataset, and introduces a taxonomy encompassing five types of ambiguity to handle edge cases encountered during the annotation process. This dataset can be used to evaluate the reasoning and interpretability capabilities of various Large Language Models (LLMs) in scientific fact verification tasks, and promote the development of scientific reading tools to improve the accessibility and interpretability of tabular evidence.
提供机构:
日本国立情报学研究所 (National Institute of Informatics, Japan)
创建时间:
2025-06-12
原始信息汇总

数据集概述

数据集基本信息

数据集内容

任务类型

  1. Claim Prediction Task

    • 运行命令: python3 run_claim.py
    • 评估命令: python3 run_eval.py claim_task
  2. Cell-level Evidence Selection Task

    • 运行命令: python3 run_evi.py
    • 评估命令: python3 run_eval.py evi_task

结果复现

  • Claim Prediction Results: 使用命令 python3 run_eval.py claim_task
  • Evidence Selection Results: 使用命令 python3 run_eval.py evi_task
搜集汇总
数据集介绍
main_image_url
构建方式
SciTabAlign数据集是在SciTab基准数据集的基础上扩展构建的,专注于科学论文中的表格与文本对齐任务。构建过程中,研究者首先从SciTab数据集中筛选出支持或反驳的声明,共计868条。随后,四位NLP研究人员对这些声明进行了人工标注,验证其标签的正确性,并标注出支持或反驳声明所需的最小表格单元格集合。标注过程中,研究者还针对模糊案例提出了一套分类法,以系统化处理标注中的边缘情况。最终,经过后处理筛选,数据集包含372条对齐样本,确保了数据的质量和一致性。
特点
SciTabAlign数据集的主要特点在于其强调解释性任务,即不仅要求模型预测声明的标签,还需识别支持该标签的关键表格单元格。这一特点使得数据集在科学声明验证任务中具有更高的解释性和实用性。此外,数据集还包含了一套针对模糊案例的分类法,涵盖了表格转换错误、额外上下文需求、意外声明类型、主观形容词和模糊声明等五类情况,为后续研究提供了宝贵的参考。数据集的构建基于科学论文中的真实表格和声明,确保了其在实际应用中的代表性和挑战性。
使用方法
SciTabAlign数据集的使用方法主要包括两个子任务:声明标签预测和单元格级证据选择。在声明标签预测任务中,模型需要根据给定的表格判断声明的支持或反驳标签。在单元格级证据选择任务中,模型需识别出支持或反驳声明的关键表格单元格。研究者可以采用零样本、少样本或思维链提示等策略进行实验。数据集的表格数据采用PIPE编码格式,以确保模型能够有效处理复杂的表格结构。通过这两个任务的结合,数据集能够全面评估模型在科学声明验证中的性能和解释能力。
背景与挑战
背景概述
SciTabAlign数据集由日本国立情报学研究所、东京大学等机构的研究团队于2025年提出,旨在解决科学论文中表格与文本对齐的解释性验证问题。该数据集基于SciTab基准扩展,通过人工标注单元格级推理依据,将传统的声明验证任务重构为可解释的表格对齐任务。科学文献中的表格具有密度高、结构化强和领域特异性强的特点,使得基于表格的声明验证面临独特挑战。SciTabAlign通过引入368个标注样本,填补了科学领域表格推理缺乏可解释性评估的空白,为理解模型在复杂表格数据上的推理过程提供了新视角。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,科学表格的异构结构和专业术语导致声明验证需要跨模态推理能力,现有模型难以准确识别支撑声明的关键单元格;在构建过程中,标注面临表格转换错误(如合并单元格)、额外上下文需求(如未说明的统计检验)和声明模糊性(如代词指代不明)等五类歧义问题。实验表明,即便GPT-4o等先进模型在声明标签预测上达到88.4%的F1值,其单元格选择任务的最高F1仅50.8%,揭示出模型预测与人类推理依据之间存在显著鸿沟。
常用场景
经典使用场景
SciTabAlign数据集在科学文献的表格与文本对齐任务中展现了其经典应用场景。该数据集通过提供人类标注的单元格级别解释,使模型能够验证科学声明是否得到表格数据的支持或反驳。这种对齐任务不仅提升了模型对表格内容的理解能力,还为科学文献的自动阅读工具提供了关键支持,帮助研究人员快速定位和理解表格中的关键信息。
实际应用
在实际应用中,SciTabAlign数据集为科学文献的自动化处理工具提供了重要支持。例如,在科学论文的审稿过程中,该数据集可以帮助自动验证作者声明与表格数据的一致性,提高审稿效率。此外,该数据集还可用于构建科学文献的交互式阅读工具,使读者能够快速定位表格中的关键证据,从而加速科学知识的获取和理解。
衍生相关工作
SciTabAlign数据集衍生了一系列相关研究,特别是在科学表格理解和声明验证领域。例如,基于该数据集的研究探索了如何利用大型语言模型(如GPT-4o和Qwen 2.5)进行表格与文本的对齐任务。此外,该数据集还启发了对表格编码方法(如PIPE编码)的进一步优化,以及对模糊声明类型的系统化处理。这些工作共同推动了科学表格理解领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作