SciQAG
收藏arXiv2024-05-16 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2405.09939v1
下载链接
链接失效反馈官方服务:
资源简介:
SciQAG是一个由澳大利亚新南威尔士大学等机构合作开发的数据集,专注于自动生成科学文献中的问答对。该数据集包含960,000个问答对,源自96,000篇科学论文,旨在通过精细化的评估框架提升大型语言模型在科学领域的应用。SciQAG通过使用开源的大型语言模型自动从全文科学论文中提取信息,生成高质量的问答对,并通过五维评估指标确保其质量。此数据集不仅可作为评估模型在科学领域封闭式问答任务的基准,还可用于训练大规模模型,以避免模型因使用完全由语言模型自生成的训练数据而导致的崩溃。
SciQAG is a dataset co-developed by institutions including the University of New South Wales in Australia, focusing on automated generation of question-answer pairs from scientific literature. The dataset encompasses 960,000 question-answer pairs sourced from 96,000 scientific papers, and is designed to advance the application of large language models in the scientific domain via a refined evaluation framework. SciQAG generates high-quality question-answer pairs by utilizing open-source large language models to automatically extract information from full-text scientific papers, and ensures the quality of these pairs through five-dimensional evaluation metrics. This dataset can not only serve as a benchmark for evaluating models on closed-domain scientific question answering tasks, but also be employed to train large-scale models to prevent model collapse resulting from training data entirely generated by language models themselves.
提供机构:
澳大利亚新南威尔士大学
创建时间:
2024-05-16
搜集汇总
数据集介绍

构建方式
SciQAG 数据集的构建方式涉及三个主要步骤:1) 种子 QA 生成:从科学文献中随机选择 123 篇论文,利用 GPT-4 生成 QA 对,并由领域专家设计生成 QA 对的提示;2) QA 生成器:使用种子论文和其对应的 QA 对对预训练的 LLM 进行微调,使其能够从科学论文中生成 QA 对;3) QA 评估器:利用第二个 LLM 对生成的 QA 对进行评估,评估指标包括相关性、无关性、完整性、准确性和合理性。此外,还包括三个可选的微调步骤,例如,种子 QA 可以用于微调生成器,生成器也可以直接提示 LLM 而无需微调。
使用方法
SciQAG 数据集的使用方法包括:1) 作为科学领域闭卷 QA 任务模型评估的基准;2) 作为具有准确和领域特定知识的指令数据,用于训练大规模模型进行科学发现。
背景与挑战
背景概述
随着科学文献的快速增长,如何有效地处理和理解这些复杂的文本成为一个挑战。大型语言模型(LLM)的进步,如GPT-4、LLaMA-2和PaLM等,为从科学文本中自动提取信息提供了可能性。SciQAG数据集正是为了填补这一空白而创建的,它是一个自动生成和评估科学问答对(QA)的框架,从已发表的科学研究文献中提取知识。SciQAG由来自澳大利亚、中国香港和美国的研究人员合作开发,旨在通过微调开源LLM生成高质量的QA对,并提出了一个五维指标来评估生成的QA对的质量。该框架包括三个主要步骤:种子QA生成、科学QA生成和评估。SciQAG数据集包含从960,000篇科学论文中提取的960,000个QA对,为科学发现的大规模模型训练提供了一个基准。
当前挑战
SciQAG数据集面临的挑战包括:1) 如何从科学文献中有效地提取知识并生成高质量的QA对;2) 如何评估生成的QA对的质量,确保其与原始文献的相关性、独立性、完整性、准确性和合理性;3) 如何确保生成的QA对具有多样性,避免重复或类似的问题;4) 如何验证生成的QA对中数值信息的来源,避免“幻觉”现象。此外,SciQAG数据集的生成器仅使用123篇论文进行训练,可能无法完全代表更大规模的数据集。为了解决这些挑战,SciQAG采用了链式思维提示、数据增强等技术,并通过GPT-4进行评估,以验证其生成的QA对的质量。
常用场景
经典使用场景
SciQAG 数据集主要用于自动生成和评估基于科学文献的知识问答对。其经典使用场景包括:1)用于训练和微调大型语言模型 (LLM),以提高其理解和生成科学文本的能力;2)作为科学领域闭卷问答任务的基准数据集,用于评估和比较不同模型的性能;3)作为指令数据,用于训练大规模模型进行科学发现,避免模型因完全使用 LLM 自生成训练数据而导致的崩溃。
解决学术问题
SciQAG 数据集解决了科学领域高质量问答数据集稀缺的问题。手动创建科学问答数据集成本高昂且耗时,而 SciQAG 框架利用 LLM 自动生成大量高质量的问答对,有效解决了这一难题。此外,SciQAG 还提出了一个五维评估指标 RACAR,用于从相关度、不可知论、完整性、准确性和合理性等方面评估问答对的质量,为科学问答数据集的评估提供了新的思路。
实际应用
SciQAG 数据集的实际应用场景包括:1)辅助科研人员快速获取和理解科学文献中的关键知识;2)支持科学教育,帮助学生学习和掌握科学知识;3)应用于智能客服、智能搜索等场景,为用户提供准确和相关的科学信息。
数据集最近研究
最新研究方向
SciQAG数据集的最新研究方向集中在利用大型语言模型(LLM)自动生成科学文献的问答对,并对其进行细致的评价。该框架通过从全文本科学论文中生成960,000个科学问答对,并通过五个维度的指标来评估生成的问答对的质量。研究表明,生成的问答对在五个维度上均取得了平均2.5分(满分3分)的成绩,表明该框架能够从论文中提取关键知识,并以大规模的方式生成高质量的问答对。该数据集、模型和评估代码已公开,为科学领域的封闭式问答任务提供了基准数据集,并为训练大规模模型以进行科学发现提供了准确且特定领域的指令数据。
相关研究论文
- 1SciQAG: A Framework for Auto-Generated Scientific Question Answering Dataset with Fine-grained Evaluation澳大利亚新南威尔士大学 · 2024年
以上内容由遇见数据集搜集并总结生成



