SCITAT

Name: SCITAT
Creator: 哈尔滨工业大学
Published: 2024-12-16 21:21:57
License: 暂无描述

arXiv2024-12-16 更新2024-12-18 收录

下载链接：

https://github.com/zhxlia/SciTaT

下载链接

链接失效反馈

官方服务：

资源简介：

SCITAT是一个面向科学表格和文本的问答基准数据集，由哈尔滨工业大学等机构创建。该数据集包含953个问题，来源于871篇arXiv上的科学论文，涵盖了多种推理类型，包括查找、数值推理、数据分析和表格处理。数据集的创建过程结合了自动标注和人工校验，确保了数据的质量和多样性。SCITAT旨在解决科学问答任务中的复杂推理问题，特别是在处理表格和文本的关联性方面，为研究人员提供了一个具有挑战性的基准。

SCITAT is a question answering benchmark dataset focused on scientific tables and texts, developed by institutions including Harbin Institute of Technology and other relevant organizations. This dataset contains 953 questions derived from 871 scientific papers hosted on arXiv, covering multiple reasoning categories including information lookup, numerical reasoning, data analysis and table processing. The dataset was constructed through a combination of automatic annotation and manual verification to ensure its quality and diversity. SCITAT aims to address complex reasoning problems in scientific question answering tasks, especially regarding the correlation between tables and associated texts, providing a challenging benchmark for researchers.

提供机构：

哈尔滨工业大学

创建时间：

2024-12-16

原始信息汇总

SciTaT: A Question Answering Benchmark for Scientific Tables and Text Covering Diverse Reasoning Types

数据集概述

SciTaT 是一个包含 13,808 个问题和 8,907 篇 arxiv 论文的问答基准数据集。

数据集结构

每个问题包含以下字段：

id: 问题的唯一标识符。
paragraph: 与问题相关的论文段落，包含以下子字段：
- paragraph_id: 段落的唯一标识符。
- text: 段落的内容。
tables: 与问题相关的表格列表，每个表格包含以下子字段：
- table_id: 表格的唯一标识符。
- label: 表格在论文 latex 代码中的标签。
- caption: 表格的标题。
- table: 表格的内容，以二维列表形式表示。
question: 问题的内容。
question_c: 问题的中文内容。
question_type: 问题的类型。
reasoning: 问题的推理依据。
reasoning_c: 问题的中文推理依据。
answer: 问题的答案。
answer_c: 问题的中文答案。

数据集下载

可以通过 SciTQA 下载 SciTQA 数据集。

基准测试

可以通过运行 slurm/run_baselines.slurm 进行基准测试。
可以通过运行 slurm/run_car.slurm 执行提出的基准 CaR。
可以通过运行 slurm/run_evaluation.slurm 评估预测结果。

搜集汇总

数据集介绍

构建方式

SCITAT数据集的构建过程结合了自动标注与人工校验，以确保数据质量和效率。首先，从arXiv.org上收集了2020年1月至2023年7月期间发表的计算机科学领域的论文，提取其中的表格和文本内容，并进行格式化处理。随后，基于SparkRA平台和先前数据集的推理类型，总结出4种主要推理类型和13种子类型。利用GPT-4模型生成问题、答案及其推理过程，并通过人工校验确保问题和答案的合理性与正确性。最终，数据集包含953个问题，涵盖871篇论文，确保问题与表格和文本的紧密关联。

特点

SCITAT数据集的显著特点在于其多样化的推理类型和表格与文本的紧密结合。数据集涵盖了4种主要推理类型（查找、数值推理、数据分析和表格化），并包含13种子类型，能够模拟真实科研场景中的复杂查询需求。此外，数据集中的问题要求同时涉及表格和文本，确保模型在处理科学文献时具备综合分析能力。SCITAT还提供了详细的推理过程标注，便于模型理解和学习复杂的推理逻辑。

使用方法

SCITAT数据集适用于开发和评估科学问答系统，特别是那些需要处理表格和文本结合的复杂推理任务的模型。使用者可以通过该数据集训练模型，使其具备查找、数值推理、数据分析和表格化等多种推理能力。实验表明，结合计算器（Calculator）和推理器（Reasoner）的CAR模型在SCITAT上表现优异，平均提升了12.9%的性能。研究者可以通过分析数据集中的错误类型，进一步优化模型，提升其在科学问答任务中的表现。

背景与挑战

背景概述

SCITAT（Scientific Tables and Text）是由哈尔滨工业大学、iFLYTEK研究和国家新加坡大学等机构的研究人员共同开发的一个科学问答基准数据集，旨在解决基于科学文献的问答任务。该数据集创建于2020年至2023年之间，涵盖了从arXiv.org上收集的871篇科学论文中的953个问题。SCITAT的核心研究问题是如何在科学文献中结合表格和文本进行多样的推理类型问答，弥补了现有数据集在推理类型和表格与文本关联性上的不足。该数据集的提出对科学问答领域具有重要意义，推动了模型在处理复杂推理任务和跨文本与表格数据的能力。

当前挑战

SCITAT数据集面临的挑战主要体现在两个方面。首先，科学问答任务中涉及的推理类型多样且复杂，包括查找、数值推理、数据分析和表格处理等，这些推理类型在现有数据集中较为少见，增加了模型处理的难度。其次，数据集的构建过程中，研究人员需要从科学论文中提取表格和文本，并确保问题与表格和文本的关联性，这一过程不仅耗时且需要深厚的领域知识。此外，SCITAT还要求模型具备复杂的数值计算能力和领域知识，以应对实际科研场景中的复杂问题。这些挑战使得SCITAT成为一个极具挑战性的基准数据集，推动了科学问答领域的发展。

常用场景

经典使用场景

SCITAT数据集的经典使用场景主要集中在科学问答任务中，特别是在处理涉及表格和文本的复杂推理问题时。该数据集通过提供包含多种推理类型（如查找、数值推理、数据分析和表格处理）的问题，要求模型同时处理表格和文本信息，从而模拟真实科研场景中的问答需求。

解决学术问题

SCITAT数据集解决了现有科学问答数据集中推理类型单一、忽视表格与文本之间关联性的问题。通过引入多样化的推理类型和强调表格与文本的协同处理，SCITAT为模型提供了更具挑战性的任务，推动了科学问答领域的研究进展，特别是在复杂数值计算和领域知识推理方面。

衍生相关工作

SCITAT数据集的提出催生了一系列相关研究工作，特别是在科学问答和表格与文本联合处理领域。例如，基于SCITAT的CAR模型通过结合多种推理方法，显著提升了问答性能。此外，SCITAT还启发了其他研究者开发类似的跨模态问答数据集，进一步推动了科学问答领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集