SciQAG

Name: SciQAG
Creator: 澳大利亚新南威尔士大学
Published: 2024-05-16 17:42:37
License: 暂无描述

arXiv2024-05-16 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2405.09939v1

下载链接

链接失效反馈

官方服务：

资源简介：

SciQAG是一个由澳大利亚新南威尔士大学等机构合作开发的数据集，专注于自动生成科学文献中的问答对。该数据集包含960,000个问答对，源自96,000篇科学论文，旨在通过精细化的评估框架提升大型语言模型在科学领域的应用。SciQAG通过使用开源的大型语言模型自动从全文科学论文中提取信息，生成高质量的问答对，并通过五维评估指标确保其质量。此数据集不仅可作为评估模型在科学领域封闭式问答任务的基准，还可用于训练大规模模型，以避免模型因使用完全由语言模型自生成的训练数据而导致的崩溃。

SciQAG is a dataset co-developed by institutions including the University of New South Wales in Australia, focusing on automated generation of question-answer pairs from scientific literature. The dataset encompasses 960,000 question-answer pairs sourced from 96,000 scientific papers, and is designed to advance the application of large language models in the scientific domain via a refined evaluation framework. SciQAG generates high-quality question-answer pairs by utilizing open-source large language models to automatically extract information from full-text scientific papers, and ensures the quality of these pairs through five-dimensional evaluation metrics. This dataset can not only serve as a benchmark for evaluating models on closed-domain scientific question answering tasks, but also be employed to train large-scale models to prevent model collapse resulting from training data entirely generated by language models themselves.

提供机构：

澳大利亚新南威尔士大学

创建时间：

2024-05-16

搜集汇总

数据集介绍

构建方式

SciQAG 数据集的构建方式涉及三个主要步骤：1) 种子 QA 生成：从科学文献中随机选择 123 篇论文，利用 GPT-4 生成 QA 对，并由领域专家设计生成 QA 对的提示；2) QA 生成器：使用种子论文和其对应的 QA 对对预训练的 LLM 进行微调，使其能够从科学论文中生成 QA 对；3) QA 评估器：利用第二个 LLM 对生成的 QA 对进行评估，评估指标包括相关性、无关性、完整性、准确性和合理性。此外，还包括三个可选的微调步骤，例如，种子 QA 可以用于微调生成器，生成器也可以直接提示 LLM 而无需微调。

使用方法

SciQAG 数据集的使用方法包括：1) 作为科学领域闭卷 QA 任务模型评估的基准；2) 作为具有准确和领域特定知识的指令数据，用于训练大规模模型进行科学发现。

背景与挑战

背景概述

随着科学文献的快速增长，如何有效地处理和理解这些复杂的文本成为一个挑战。大型语言模型（LLM）的进步，如GPT-4、LLaMA-2和PaLM等，为从科学文本中自动提取信息提供了可能性。SciQAG数据集正是为了填补这一空白而创建的，它是一个自动生成和评估科学问答对（QA）的框架，从已发表的科学研究文献中提取知识。SciQAG由来自澳大利亚、中国香港和美国的研究人员合作开发，旨在通过微调开源LLM生成高质量的QA对，并提出了一个五维指标来评估生成的QA对的质量。该框架包括三个主要步骤：种子QA生成、科学QA生成和评估。SciQAG数据集包含从960,000篇科学论文中提取的960,000个QA对，为科学发现的大规模模型训练提供了一个基准。

当前挑战

SciQAG数据集面临的挑战包括：1) 如何从科学文献中有效地提取知识并生成高质量的QA对；2) 如何评估生成的QA对的质量，确保其与原始文献的相关性、独立性、完整性、准确性和合理性；3) 如何确保生成的QA对具有多样性，避免重复或类似的问题；4) 如何验证生成的QA对中数值信息的来源，避免“幻觉”现象。此外，SciQAG数据集的生成器仅使用123篇论文进行训练，可能无法完全代表更大规模的数据集。为了解决这些挑战，SciQAG采用了链式思维提示、数据增强等技术，并通过GPT-4进行评估，以验证其生成的QA对的质量。

常用场景

经典使用场景

SciQAG 数据集主要用于自动生成和评估基于科学文献的知识问答对。其经典使用场景包括：1）用于训练和微调大型语言模型 (LLM)，以提高其理解和生成科学文本的能力；2）作为科学领域闭卷问答任务的基准数据集，用于评估和比较不同模型的性能；3）作为指令数据，用于训练大规模模型进行科学发现，避免模型因完全使用 LLM 自生成训练数据而导致的崩溃。

解决学术问题

SciQAG 数据集解决了科学领域高质量问答数据集稀缺的问题。手动创建科学问答数据集成本高昂且耗时，而 SciQAG 框架利用 LLM 自动生成大量高质量的问答对，有效解决了这一难题。此外，SciQAG 还提出了一个五维评估指标 RACAR，用于从相关度、不可知论、完整性、准确性和合理性等方面评估问答对的质量，为科学问答数据集的评估提供了新的思路。

实际应用

SciQAG 数据集的实际应用场景包括：1）辅助科研人员快速获取和理解科学文献中的关键知识；2）支持科学教育，帮助学生学习和掌握科学知识；3）应用于智能客服、智能搜索等场景，为用户提供准确和相关的科学信息。

数据集最近研究