five

SCIDQA

收藏
arXiv2024-11-08 更新2024-11-12 收录
下载链接:
https://github.com/yale-nlp/SciDQA
下载链接
链接失效反馈
官方服务:
资源简介:
SCIDQA数据集是由耶鲁大学和Allen Institute for AI共同创建的一个深度阅读理解数据集,专门用于评估语言模型对科学论文的理解能力。该数据集包含2937个问答对,来源于OpenReview平台上的同行评审,确保了问题和答案的高质量。数据集的创建过程包括从PDF转换、正则表达式过滤到LLM提取问答对,并通过领域专家的手动标注和编辑来确保数据质量。SCIDQA数据集的应用领域主要集中在科学文本理解,旨在解决复杂科学文本的深度理解和推理问题。

The SCIDQA dataset, co-created by Yale University and the Allen Institute for AI, is a deep reading comprehension dataset specifically designed to evaluate language models' ability to comprehend scientific papers. It comprises 2,937 question-answer pairs sourced from peer reviews on the OpenReview platform, which guarantees the high quality of both the questions and their corresponding answers. The dataset construction workflow includes PDF conversion, regular expression filtering, question-answer pair extraction using large language models (LLMs), as well as manual annotation and editing by domain experts to ensure data quality. The SCIDQA dataset is primarily applied in the field of scientific text understanding, aiming to address challenges in deep comprehension and reasoning over complex scientific texts.
提供机构:
耶鲁大学
创建时间:
2024-11-08
搜集汇总
数据集介绍
main_image_url
构建方式
SCIDQA数据集的构建过程体现了对科学文献深度理解的需求。该数据集从OpenReview平台上的同行评审讨论中提取问题和答案,确保了问题的高质量和深度。构建过程中,首先从顶级机器学习和深度学习会议中筛选出11400篇论文,使用Nougat模型将PDF文件转换为文本格式。随后,通过正则表达式过滤出包含问题和答案的评审讨论,并利用PaLM API提取明确的问题-答案对。为了确保数据集的质量,进一步通过领域专家进行人工标注和编辑,包括筛选相关问题、重写问题和答案以确保其独立性和清晰性,以及编辑参考文献以防止模型利用特定标记作为捷径。
特点
SCIDQA数据集的显著特点在于其问题的深度和复杂性。这些问题不仅需要对论文文本的深入理解,还涉及对图表、方程、附录和补充材料的跨模态推理。数据集中的问题和答案对来自领域专家的评审讨论,确保了问题的高质量和自然性。此外,数据集还包含了多文档问题,要求模型在回答问题时参考至少一篇额外的参考文献。这些特点使得SCIDQA成为评估语言模型在科学文本理解能力上的理想数据集。
使用方法
SCIDQA数据集适用于评估和训练语言模型在科学文献阅读理解任务中的表现。使用该数据集时,可以采用多种配置进行实验,包括闭卷设置(仅提供问题)、标题和摘要设置(提供问题及论文的标题和摘要)、检索增强生成设置(提供问题及论文的相关段落)以及全文设置(提供问题及论文的全文)。通过这些设置,可以全面评估模型在不同信息提供情况下的回答能力和推理能力。此外,数据集还支持多模态推理和多文档理解的评估,为研究复杂科学文本理解提供了丰富的资源。
背景与挑战
背景概述
SCIDQA数据集由IIT Gandhinagar、Yale University和Allen Institute for AI的研究人员于2024年创建,旨在挑战大型语言模型(LLMs)对科学论文的深度理解能力。该数据集包含2,937个问答对,其问题源自领域专家的同行评审,答案则由论文作者提供,确保了对文献的深入考察。SCIDQA通过精心筛选低质量问题、去上下文化内容、追踪不同版本的源文档以及引入参考文献,增强了数据集的质量,使其成为评估LLMs在复杂科学文本理解能力上的重要资源。
当前挑战
SCIDQA数据集面临的挑战包括:1) 解决领域问题,即科学文献的深度阅读理解,这要求模型具备跨图表、表格、方程式、附录和补充材料的推理能力;2) 构建过程中遇到的挑战,如从同行评审中提取高质量问答对的难度、确保问题和答案的独立性和清晰性,以及处理不同版本文档的复杂性。此外,数据集中的问题常涉及多文档推理,而实验中并未包含这些参考文档,这增加了答案生成的复杂性。
常用场景
经典使用场景
SCIDQA数据集的经典使用场景在于评估大型语言模型(LLMs)在科学文献阅读理解任务中的表现。通过提供由领域专家提出的问题和论文作者的回答,SCIDQA挑战了LLMs对科学文章的深度理解能力。这些问题不仅涉及文本内容,还包括图表、方程式、附录和补充材料,要求模型进行多文档推理和跨模态理解。
实际应用
SCIDQA数据集在实际应用中具有广泛的前景,特别是在科学研究和教育领域。它可以用于开发和测试智能辅助阅读工具,帮助研究人员更高效地理解和分析科学文献。此外,SCIDQA还可以用于教育培训,提升学生和研究人员的文献阅读和理解能力,特别是在跨学科和跨模态内容理解方面。
衍生相关工作
SCIDQA数据集的发布催生了一系列相关研究工作,特别是在科学文献理解和问答系统领域。例如,研究者们利用SCIDQA数据集开发了新的模型和算法,以提高对科学文本的理解和推理能力。此外,SCIDQA还启发了对多模态数据处理和多文档推理的研究,推动了科学文本理解技术的整体进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作