SciQAG-24D

Name: SciQAG-24D
Creator: 新南威尔士大学、香港城市大学等
Published: 2024-05-16 11:39:44
License: 暂无描述

github2024-05-16 更新2024-09-02 收录

下载链接：

https://github.com/MasterAI-EAM/SciQAG

下载链接

链接失效反馈

官方服务：

资源简介：

SciQAG-24D 是一个开放式科学 QA 基准数据集，筛选后的训练集包括 21,529 篇论文和 179,511 个 QA 对，而筛选后的测试集包含 1,199 篇论文和 8,531 个 QA 对。统计显示，99.15%回答中的数据来自原论文，87.29%的问题相似度在0.3以下，且回答对原文内容的覆盖度达到78.26%。该数据集应用广泛：训练集可用于微调 LLM，为其注入科学知识；测试集可⽤于评估LLM在某特定或整体科学领域中的开放式QA任务表现。由于测试集较大，因此它也可以作为高质量数据用于微调。

SciQAG-24D is an open-domain scientific QA benchmark dataset. The filtered training set comprises 21,529 papers and 179,511 QA pairs, while the filtered test set includes 1,199 papers and 8,531 QA pairs. Statistics reveal that 99.15% of the answers are derived from the original papers, 87.29% of the questions have a similarity score below 0.3, and the coverage of the answers to the original content reaches 78.26%. This dataset is widely applicable: the training set can be used to fine-tune LLMs, infusing them with scientific knowledge; the test set can be utilized to evaluate the performance of LLMs in open-domain QA tasks within specific or general scientific fields. Given the substantial size of the test set, it can also serve as high-quality data for fine-tuning.

提供机构：

新南威尔士大学、香港城市大学等

创建时间：

2024-05-16

原始信息汇总

SciQAG 数据集概述

数据集简介

名称：SciQAG
类型：科学领域问答对数据集
规模：包含188,042个问答对
来源：从24个科学领域的22,743篇科学论文中提取

数据集特点

高质量：通过自动生成框架构建，确保问答对质量
多样性：涵盖24个科学领域
研究级别：问答对具有科研深度

数据集构成

SciQAG-24D：用于评估大语言模型科学问答能力的新基准任务
数据格式：包含instruction、input、output字段的JSON格式

应用场景

大语言模型微调
科学问答系统开发
AI系统解释和推理能力评估

技术细节

生成框架：包含QA生成器和QA评估器
微调方法：采用Longlora训练方法
评估指标：问题相似度和句子覆盖率

引用信息

bibtex @misc{wan2024sciqagframeworkautogeneratedscience, title={SciQAG: A Framework for Auto-Generated Science Question Answering Dataset with Fine-grained Evaluation}, author={Yuwei Wan and Yixuan Liu and Aswathy Ajith and Clara Grazian and Bram Hoex and Wenjie Zhang and Chunyu Kit and Tong Xie and Ian Foster}, year={2024}, eprint={2405.09939}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2405.09939}, }

搜集汇总

数据集介绍

构建方式

SciQAG-24D数据集通过利用大规模语言模型（LLMs）从22,743篇科学文献中自动生成高质量的科学问答对，构建了一个包含188,042个问答对的开放式科学问答数据集。该数据集涵盖了24个科学领域，通过QA生成器和QA评估器的协同工作，确保了问答对的多样性和研究级别的高质量。

特点

SciQAG-24D数据集的显著特点在于其大规模、高质量和跨领域的多样性。该数据集不仅覆盖了广泛的科学领域，还通过精细的评估机制确保了问答对的质量和相关性。此外，数据集的开放性和公开性为科学问答领域的研究提供了宝贵的资源。

使用方法

SciQAG-24D数据集主要用于微调大规模语言模型，以提升其在科学问答任务中的表现。使用者可以通过提供的训练脚本和推理代码，将数据集应用于模型的微调和评估。数据集的输入输出格式清晰，便于集成到现有的机器学习工作流中，支持进一步的研究和应用开发。

背景与挑战

背景概述

SciQAG-24D数据集是由Yuwei Wan等人于2024年创建的，旨在通过大规模语言模型（LLMs）从科学文献中自动生成高质量的科学问答对。该数据集包含188,042个问答对，源自22,743篇科学论文，涵盖24个科学领域。SciQAG-24D不仅是一个数据集，更是一个用于评估LLMs在科学问答任务中表现的新基准任务。该数据集的构建旨在推动科学问答领域的研究，提升LLMs在处理复杂科学问题时的性能，并为开发更具解释性和推理能力的AI系统提供支持。

当前挑战

SciQAG-24D数据集的构建面临多重挑战。首先，从海量的科学文献中提取高质量、多样化的问答对需要复杂的自然语言处理技术。其次，确保生成的问答对在科学准确性和逻辑一致性上的高要求，增加了数据处理的难度。此外，如何有效评估LLMs在科学问答任务中的表现，也是一个重要的挑战。最后，数据集的开放性和可扩展性要求在保持数据质量的同时，确保其能够适应不断变化的科学研究需求。

常用场景

经典使用场景

SciQAG-24D数据集的经典使用场景主要体现在科学问答系统的构建与优化上。通过该数据集，研究者能够训练和微调大型语言模型（LLMs），以提升其在科学文献中的问答能力。具体而言，SciQAG-24D包含了从22,743篇科学论文中提取的188,042对高质量问答，涵盖24个科学领域，为模型提供了丰富的科学知识背景。这些问答对不仅有助于模型理解复杂的科学概念，还能增强其在开放式科学问题上的推理和解释能力。

实际应用

在实际应用中，SciQAG-24D数据集广泛应用于科学教育、科研辅助工具和智能问答系统等领域。例如，在科学教育中，该数据集可以用于开发智能辅导系统，帮助学生更好地理解复杂的科学概念。在科研辅助工具中，研究者可以利用该数据集训练的模型快速检索和理解相关科学文献，提升科研效率。此外，SciQAG-24D还为构建面向公众的科学问答平台提供了基础，使得普通用户能够通过自然语言与科学知识进行交互。

衍生相关工作

SciQAG-24D数据集的发布催生了一系列相关研究工作，特别是在科学问答和大型语言模型的微调领域。许多研究者基于该数据集进行了模型性能的评估和改进，提出了多种优化策略，如增强模型的上下文理解能力和推理能力。此外，SciQAG-24D还激发了对科学文献自动摘要和知识图谱构建的研究，进一步推动了科学信息处理技术的发展。这些衍生工作不仅丰富了科学问答领域的研究内容，也为未来的智能科学助手开发奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集