SciDQA

Name: SciDQA
Creator: Yale NLP Lab
Published: 2024-12-16 14:17:44
License: 暂无描述

Hugging Face2024-12-16 更新2024-12-17 收录

下载链接：

https://huggingface.co/datasets/yale-nlp/SciDQA

下载链接

链接失效反馈

官方服务：

资源简介：

SciDQA是一个用于深度阅读理解的科学文献数据集，包含2,937个问答对。数据集的问题来源于领域专家的同行评审，答案由论文作者提供，确保了对文献的深入考察。数据集通过过滤低质量问题、去上下文化、跟踪不同版本的源文档以及引入参考文献等方法，提高了数据集的质量。SciDQA的问答对涉及图表、公式、附录和补充材料等多方面的内容，需要多文档推理能力。数据集的评估基于表面相似性和LLM判断的指标，旨在促进复杂科学文本理解的研究。

SciDQA is a scientific literature dataset for deep reading comprehension, containing 2,937 question-answer pairs. The questions in the dataset are sourced from peer reviews by domain experts, while the answers are provided by paper authors, ensuring in-depth examination of the literature. The dataset quality is improved through methods including filtering low-quality questions, decontextualization, tracking different versions of source documents, and incorporating reference materials. The question-answer pairs of SciDQA cover diverse contents such as charts, formulas, appendices and supplementary materials, requiring multi-document reasoning capabilities. The evaluation of the dataset is based on metrics of surface similarity and LLM judgment, aiming to advance research on complex scientific text comprehension.

提供机构：

Yale NLP Lab

创建时间：

2024-12-16

原始信息汇总

SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers

概述

SciDQA 是一个用于阅读理解的新数据集，专注于科学论文的深度理解。该数据集包含 2,937 个问答对，旨在挑战语言模型对科学文章的深度理解能力。与其他的科学问答数据集不同，SciDQA 的问题来源于领域专家的同行评审，答案则由论文作者提供，确保了对文献的彻底审查。

特点

数据来源：问题来源于同行评审，答案由论文作者提供。
数据处理：通过过滤低质量问题、去上下文化、跟踪不同版本的源文档以及引入参考文献，提升了数据集的质量。
多文档问答：问题需要跨图表、表格、公式、附录和补充材料的推理，并要求多文档推理。

评估

数据集通过多种配置评估了多个开源和专有的语言模型，探索它们在生成相关和事实性响应方面的能力。评估基于表面相似性和语言模型判断的指标，揭示了显著的性能差异。

许可证

Open Data Commons Attribution License (ODC-By) v1.0

引用

@inproceedings{singh-etal-2024-scidqa, title = "{S}ci{DQA}: A Deep Reading Comprehension Dataset over Scientific Papers", author = "Singh, Shruti and Sarkar, Nandan and Cohan, Arman", editor = "Al-Onaizan, Yaser and Bansal, Mohit and Chen, Yun-Nung", booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2024", address = "Miami, Florida, USA", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2024.emnlp-main.1163", doi = "10.18653/v1/2024.emnlp-main.1163", pages = "20908--20923", abstract = "Scientific literature is typically dense, requiring significant background knowledge and deep comprehension for effective engagement. We introduce SciDQA, a new dataset for reading comprehension that challenges language models to deeply understand scientific articles, consisting of 2,937 QA pairs. Unlike other scientific QA datasets, SciDQA sources questions from peer reviews by domain experts and answers by paper authors, ensuring a thorough examination of the literature. We enhance the dataset{}s quality through a process that carefully decontextualizes the content, tracks the source document across different versions, and incorporates a bibliography for multi-document question-answering. Questions in SciDQA necessitate reasoning across figures, tables, equations, appendices, and supplementary materials, and require multi-document reasoning. We evaluate several open-source and proprietary LLMs across various configurations to explore their capabilities in generating relevant and factual responses, as opposed to simple review memorization. Our comprehensive evaluation, based on metrics for surface-level and semantic similarity, highlights notable performance discrepancies. SciDQA represents a rigorously curated, naturally derived scientific QA dataset, designed to facilitate research on complex reasoning within the domain of question answering for scientific texts.", }

搜集汇总

数据集介绍

构建方式

在科学文献的深度理解领域，SciDQA数据集通过从领域专家的同行评审中提取问题，并由论文作者提供答案，构建了一个包含2,937个问答对的深度阅读理解数据集。该数据集通过精心筛选低质量问题、去上下文化内容、追踪源文档的不同版本以及引入参考文献，增强了数据集的质量，使其适用于多文档问答任务。

使用方法

SciDQA数据集适用于评估大型语言模型在科学文献理解中的表现，特别是在生成相关且事实准确的回答方面。研究者可以通过该数据集进行模型训练和评估，探索模型在处理复杂科学文本时的推理能力和理解深度。

背景与挑战

背景概述

在科学文献的深度理解领域，SciDQA数据集的引入标志着对复杂科学文本处理能力的一次重要提升。该数据集由Shruti Singh、Nandan Sarkar和Arman Cohan等研究人员于2024年创建，旨在通过2,937个问答对，挑战语言模型对科学文章的深度阅读理解能力。与传统的科学问答数据集不同，SciDQA的问答对源自领域专家的同行评审和论文作者的回答，确保了对文献的全面考察。通过精心设计的过滤和去上下文化过程，以及对源文档版本跟踪和多文档问答的整合，SciDQA不仅提升了数据质量，还为复杂科学文本理解的研究提供了新的基准。

当前挑战

SciDQA数据集在构建和应用过程中面临多项挑战。首先，科学文献的密集性和专业性要求模型具备广泛的背景知识和深度理解能力，这对现有的语言模型提出了高要求。其次，数据集的构建过程中，如何确保问答对的质量和相关性，以及如何处理多版本文档和多文档问答的复杂性，都是需要解决的技术难题。此外，评估模型在生成相关和事实性回答方面的能力，尤其是在处理图表、方程式和附录等复杂元素时，也是一个重要的挑战。这些挑战不仅推动了数据集的精细化处理，也促进了语言模型在科学文本理解领域的技术进步。

常用场景

经典使用场景

SciDQA数据集的经典使用场景主要集中在科学文献的深度阅读理解任务中。该数据集通过提供来自领域专家的同行评审问题和论文作者的答案，挑战语言模型对科学文章的深入理解。其设计旨在评估模型在处理复杂科学文本时的多文档推理能力，尤其是在涉及图表、公式、附录和补充材料等多元信息时的表现。

解决学术问题

SciDQA数据集解决了科学文献阅读理解中的多个学术研究问题。首先，它通过引入多文档问题回答机制，填补了现有数据集在复杂科学文本理解上的空白。其次，通过源自专家评审的问题和作者答案，SciDQA确保了问题的高质量和答案的权威性，从而为研究者提供了一个评估和提升语言模型在科学领域表现的标准化工具。

实际应用

在实际应用中，SciDQA数据集可广泛应用于科学文献的自动化处理和信息提取。例如，科研机构可以利用该数据集训练模型，以自动生成科学论文的摘要或回答特定领域的专业问题。此外，出版机构和学术期刊也可使用SciDQA来提升审稿流程的效率，通过自动化工具辅助审稿人进行文献评估和问题解答。

数据集最近研究