CHEMRAG-BENCH

Name: CHEMRAG-BENCH
Creator: 伊利诺伊大学香槟分校计算机与数据科学学院, 美国国立卫生研究院国家医学图书馆
Published: 2025-05-12 23:34:45
License: 暂无描述

arXiv2025-05-12 更新2025-05-14 收录

下载链接：

https://chemrag.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

CHEMRAG-BENCH是一个全面的基准测试，旨在系统地评估检索增强生成（RAG）方法在化学领域的有效性。该基准包含1,932个专家审核的问题-答案对，涵盖了从描述引导分子设计、逆合成、化学计算到分子注释、命名转换和反应预测等多种化学相关任务。数据集整合了科学文献、PubChem数据库、PubMed摘要、教科书和维基百科条目等多种异构知识来源。CHEMRAG-BENCH旨在为化学领域的RAG系统提供系统性的评估标准，并指导未来的研究。

CHEMRAG-BENCH is a comprehensive benchmark designed to systematically evaluate the effectiveness of retrieval-augmented generation (RAG) methods in the field of chemistry. It contains 1,932 expert-validated question-answer pairs, covering a wide range of chemistry-related tasks spanning from description-guided molecular design, retrosynthesis and chemical calculations to molecular annotation, nomenclature conversion and reaction prediction. The dataset integrates diverse heterogeneous knowledge sources including scientific literature, PubChem database, PubMed abstracts, textbooks and Wikipedia entries. CHEMRAG-BENCH aims to provide a systematic evaluation standard for RAG systems in the chemistry domain and guide future research.

提供机构：

伊利诺伊大学香槟分校计算机与数据科学学院, 美国国立卫生研究院国家医学图书馆

创建时间：

2025-05-12

搜集汇总

数据集介绍

构建方式

CHEMRAG-BENCH数据集通过整合多种异构化学知识源构建而成，包括科学文献、PubChem数据库、PubMed摘要、化学教科书和维基百科条目。研究团队精心筛选并标注了1,932个专家级问答对，涵盖分子设计、逆合成分析、化学计算和反应预测等多样化任务。每个数据点均经过严格的领域专家验证，确保问题设计的专业性和答案的准确性。数据采集过程采用多源融合策略，通过自动化爬取与人工校验相结合的方式，构建了覆盖化学各子领域的综合性语料库。

使用方法

使用该数据集时，研究者可通过CHEMRAG-TOOLKIT实现端到端的检索增强生成实验流程。典型工作流包含三个步骤：首先选择适合的化学子语料库（如USPTO用于反应预测或OpenStax用于基础概念问题），然后配置检索器（推荐RRF融合检索策略），最后接入生成模型（如GPT-4或Llama-3）。评估时需注意不同任务对应特定指标：分子生成任务采用MACCS指纹相似度和有效性检验，数值计算问题允许5%相对误差，而文本生成类任务则使用BLEU和ROUGE评分。实验表明检索文档数k=5时在多数任务上能达到最佳平衡。

背景与挑战

背景概述

CHEMRAG-BENCH是由伊利诺伊大学厄巴纳-香槟分校Siebel计算与数据科学学院和美国国立卫生研究院国家医学图书馆的研究团队于2025年推出的化学领域检索增强生成（RAG）评估基准。该数据集旨在解决化学领域缺乏高质量、特定领域语料库和评估基准的问题，通过整合来自科学文献、PubChem数据库、PubMed摘要、教科书和维基百科条目等多源异构知识，构建了包含1,932个专家标注的问答对。CHEMRAG-BENCH的推出为系统评估化学领域RAG方法的有效性提供了基础，显著提升了大型语言模型在化学任务中的性能，平均相对改进达到17.4%。

当前挑战

CHEMRAG-BENCH面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，化学领域的复杂术语、特定领域惯例和快速发展的知识使得大型语言模型在生成准确响应时面临困难，常产生幻觉或过时内容。构建过程中的挑战包括：1) 多模态化学表示问题，如化学化合物的多种表示形式（SMILES字符串、IUPAC名称和英文名称）增加了检索的复杂性；2) 检索器架构的局限性，当前检索器仅考虑语义相似性，而化学任务需要更复杂的推理；3) 领域特定语料库的缺乏，高质量的化学领域语料库稀缺；4) 评估指标的多样性，需要设计适用于分子生成、反应预测等多种化学任务的综合评估指标。

常用场景

经典使用场景

CHEMRAG-BENCH数据集在化学领域的检索增强生成（RAG）研究中扮演了核心角色，其经典使用场景包括分子设计、逆合成分析、化学反应预测及化学计算等任务。通过整合来自PubChem、PubMed、USPTO等异构知识源的化学文献与数据库，该数据集为评估大语言模型（LLM）在化学专业知识检索与生成中的性能提供了标准化测试平台。例如，在描述引导的分子设计中，模型需基于文本描述生成符合要求的SMILES字符串，而数据集提供的多源检索文档显著提升了生成分子的准确性与多样性。

解决学术问题

该数据集解决了化学领域RAG研究的两大核心问题：一是缺乏高质量领域专用评估基准，其1932个专家标注的问答对覆盖了化学计算、命名转换等6类任务，填补了化学RAG系统性评估的空白；二是缓解了通用LLM在化学任务中的幻觉问题，实验表明引入检索机制可使模型性能平均提升17.4%。特别针对化学术语复杂、知识更新快的特点，通过动态检索最新文献与数据库，有效抑制了模型生成过时或错误内容的现象。

实际应用

在实际应用中，CHEMRAG-BENCH支撑的RAG系统已展现出多重价值。在药物研发领域，研究人员利用其检索专利数据库（USPTO）预测反应产率，加速候选化合物筛选；教育场景中，结合教材语料（OpenStax）的问答系统能精准解答大学化学试题；工业界则通过分子描述生成模块自动生成化合物技术文档。数据集配套的CHEMRAG-TOOLKIT进一步降低了部署门槛，支持5种检索算法与8种LLM的灵活组合，使化学RAG技术可快速适配药物发现、材料设计等垂直场景。

数据集最近研究