RetChemQA

Name: RetChemQA
Creator: 加州大学伯克利分校
Published: 2024-05-03 22:29:54
License: 暂无描述

arXiv2024-05-03 更新2024-06-21 收录

下载链接：

https://github.com/nakulrampal/RetChemQA

下载链接

链接失效反馈

官方服务：

资源简介：

RetChemQA是一个专为网状化学领域设计的大型基准数据集，由加州大学伯克利分校的研究团队创建。该数据集包含约90,000个单跳和多跳问题与答案对，数据来源于约2,530篇研究论文，涵盖多个主流科学出版机构。数据集的创建过程利用了OpenAI的GPT-4 Turbo模型，该模型以其卓越的语言理解和生成能力著称。RetChemQA旨在为网状化学领域的机器学习算法开发和评估提供一个强有力的平台，特别适用于评估模型在处理复杂科学问题时的表现。

RetChemQA is a large-scale benchmark dataset specifically designed for the field of reticular chemistry, created by a research team at the University of California, Berkeley. This dataset contains approximately 90,000 single-hop and multi-hop question-answer pairs, sourced from around 2,530 research papers across multiple leading scientific publishing institutions. The dataset was constructed using OpenAI's GPT-4 Turbo model, which is renowned for its exceptional language understanding and generation capabilities. RetChemQA aims to provide a robust platform for the development and evaluation of machine learning algorithms in the field of reticular chemistry, and is particularly suitable for assessing model performance when handling complex scientific problems.

提供机构：

加州大学伯克利分校

创建时间：

2024-05-03

搜集汇总

数据集介绍

构建方式

在网状化学（Reticular Chemistry）这一前沿领域，随着大语言模型在科学研究中的广泛应用，亟需一个专门用于评估其性能的基准数据集。RetChemQA数据集正是为此而生，它基于约2,530篇来自NAS、ACS、RSC、Elsevier等主流出版商的研究论文构建而成。数据集构建的核心是利用OpenAI的GPT-4-Turbo模型，通过精心设计的提示词（prompt）自动生成问答对。首先，从CSD MOF子集中筛选出具有DOI的论文，并进一步限定至特定期刊。随后，对每篇论文的正文和补充信息进行文本聚合与分词处理，再交由LLM生成单跳（single-hop）与多跳（multi-hop）问答对，以及合成条件数据集。整个过程遵循与出版商的数据挖掘协议，最终以JSON格式存储，每个文件以DOI为前缀命名，确保数据来源清晰可溯。

特点

RetChemQA数据集以其全面性与层次性在网状化学领域独树一帜。它包含约90,000个问答对，其中单跳与多跳类型各占约54%与46%，覆盖事实型、推理型及真/假三种问题类别，并细分为简单、中等、困难三个难度等级。这种多维度分类真实反映了科学文献中信息检索与推理的复杂性。尤为独特的是，数据集不仅包含问答对，还附带从文献中提取的合成条件数据集，为材料合成条件的标准化与自动化提取提供了宝贵资源。评估结果表明，单跳数据集的精确度高达约94%，而多跳数据集尽管幻觉率较高，但其幻觉捕获率却达84%，展现出LLM在复杂任务中的自我纠错能力，这一特性为评估模型鲁棒性提供了新视角。

使用方法

使用RetChemQA数据集时，研究人员可将其作为网状化学领域大语言模型性能的基准测试平台。数据集的JSON文件结构清晰，每个文件对应一篇论文，包含问题、答案、难度等级及问题类型等标签。用户可直接加载这些文件，用于训练或评估模型的问答能力。由于数据集未包含原文上下文以避免版权问题，建议用户在评估时使用对应DOI的全文（包括补充信息）作为上下文。此外，该数据集特别适合与自动化提示优化框架（如DSPy）结合，用于开发聊天界面或自动优化实验设计。对于合成条件数据集，用户可通过二元评估指标（Y/N）检验模型提取的完整性，从而推动网状化学领域数据驱动的研究范式。

背景与挑战

背景概述

随着人工智能与自然语言处理技术的迅猛发展，大规模基准数据集在评估机器学习模型性能方面扮演着日益关键的角色。在化学领域，尽管已有诸如PubMedQA、HotPotQA和SQuAD等面向生物医学、复杂问答及阅读理解的数据集，但针对网格化学这一特定领域的问答数据集仍属空白。为弥合这一鸿沟，由加州大学伯克利分校的Nakul Rampal、Omar M. Yaghi等研究人员，联合沙特国王阿卜杜勒阿齐兹科技城等机构，于2024年创建了RetChemQA数据集。该数据集利用GPT-4-Turbo从约2530篇研究论文中自动生成了约9万个问答对，涵盖单跳与多跳两种类型，旨在为网格化学领域的机器学习算法开发与评估提供标准化平台，有力推动了该领域从经验驱动向数据驱动的研究范式转变。

当前挑战

RetChemQA数据集面临的核心挑战体现在两个层面。在领域问题层面，网格化学文献中合成条件表述格式各异、变量不统一，缺乏标准化模板，导致从文本中准确提取结构化信息极为困难；同时，多跳问答任务要求模型整合论文正文与补充材料中的分散信息进行多步推理，对语言模型的逻辑连贯性与信息检索能力构成严峻考验。在构建过程层面，利用GPT-4-Turbo自动生成问答对时，模型存在“幻觉”问题，即生成与给定上下文无关的问答对，且单跳与多跳任务的幻觉率差异显著；此外，从Wiley出版社获取论文时，因无法自动下载补充材料，导致多跳问答数据集的覆盖范围受限。这些挑战共同制约了数据集的质量与泛化能力。

常用场景

经典使用场景

在网状化学这一前沿交叉学科中，RetChemQA数据集作为首个专门用于评估大语言模型在该领域性能的基准资源，其经典使用场景集中于模型能力的系统化测评。研究者可借助该数据集中的单跳与多跳问答对，对语言模型在事实提取、逻辑推理及真伪判别等多维度任务上的表现进行量化分析。特别是通过区分Easy、Medium、Hard三级难度和Factual、Reasoning、True/False三种问题类型，该数据集能够精细刻画模型在处理网状化学文献中复杂科学论述时的理解深度与推理准确性，为模型优化提供了标准化的测试平台。

衍生相关工作

RetChemQA的发布催生了一系列衍生的经典研究工作，其中最显著的是推动了自动化提示优化框架DSPy在科学领域的适配与应用。该数据集为DSPy提供了丰富的网状化学问答实例，使其能够自动学习如何构造高效提示以提升模型在复杂多跳推理任务中的表现。此外，基于RetChemQA中约90,000个问答对，研究者们进一步开发了针对合成条件提取的专用评估指标——Obedience分数，并提出了标准化合成条件信息文件（.sif）的概念，类似晶体学中的.cif文件。这些工作不仅深化了对大语言模型在科学数据提取中行为特征的理解，也为跨学科协作提供了可复用的方法论模板。

数据集最近研究