SciCUEval

Name: SciCUEval
Creator: 浙江大学
Published: 2025-05-21 12:33:26
License: 暂无描述

arXiv2025-05-21 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.15094v1

下载链接

链接失效反馈

官方服务：

资源简介：

SciCUEval是一个全面的数据集，旨在评估大型语言模型在科学领域中的上下文理解能力。该数据集包含十个领域特定的子数据集，涵盖了生物学、化学、物理学、生物医学和材料科学等领域，整合了包括结构化表格、知识图谱和非结构化文本等多种数据模态。SciCUEval通过多种问题格式系统地评估了四个核心能力：相关信息识别、信息缺失检测、多源信息整合和上下文感知推理。数据集从高质量的科学来源收集数据，并使用先进的技术进行生成和验证，以确保数据的准确性和可靠性。SciCUEval旨在解决现有科学领域评估数据集的局限性，为大型语言模型在科学领域中的应用提供有力支持。

SciCUEval is a comprehensive dataset designed to evaluate the contextual understanding capabilities of large language models in scientific domains. This dataset includes ten domain-specific sub-datasets spanning disciplines including biology, chemistry, physics, biomedicine, and materials science, and integrates multiple data modalities such as structured tables, knowledge graphs, and unstructured text. SciCUEval systematically evaluates four core capabilities across varied question formats: relevant information identification, missing information detection, multi-source information integration, and context-aware reasoning. The dataset collects data from high-quality scientific sources and uses advanced techniques for generation and validation to ensure the accuracy and reliability of the data. SciCUEval aims to address the limitations of existing scientific domain evaluation datasets, providing robust support for the application of large language models in scientific fields.

提供机构：

浙江大学

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

SciCUEval数据集的构建采用了多模态科学数据的系统性整合方法，涵盖生物学、化学、物理学、生物医学和材料科学五大领域。研究团队从权威科学数据库（如arXiv、Material Project、PubChem等）收集结构化表格、知识图谱和非结构化文本三类数据，通过基于Sentence-BERT的相似性检索注入噪声信息，并采用LLM生成与四类核心能力（相关信息识别、信息缺失检测、多源信息整合、情境感知推理）对齐的问题-答案对。最后通过两阶段验证（LLM自动评估+领域专家人工审核）确保90.83%的数据质量合格率，形成包含11,343个问题的十个子数据集。

特点

该数据集具有三大显著特征：跨学科覆盖性（10个子数据集涵盖5个核心科学领域）、多模态复杂性（整合表格、知识图谱和文本三种数据形态）以及能力评估系统性（通过四类科学理解核心能力构建评估框架）。特别值得注意的是其噪声注入机制，通过嵌入相似性检索引入200-300个干扰项，模拟真实科研场景中的信息干扰，大幅提升评估的挑战性。数据多样性体现在问题形式上，包含开放式问答、多选题、内容补全和真假判断四种类型，全面检验模型能力。

使用方法

使用SciCUEval时需要关注三个关键层面：首先需明确评估目标能力（四类核心能力可选），其次根据任务类型选择对应数据模态（文本/表格/KG）。评估时建议采用统一提示模板，对于信息缺失检测任务推荐使用拒绝率指标，其他任务采用准确率。针对不同规模模型，可重点考察其在文本模态（通用模型优势区）与结构化数据模态（专业模型挑战区）的表现差异。数据集的层次化结构支持细粒度分析，既可进行跨学科横向对比，也能深入特定领域评估模型优劣势。

背景与挑战

背景概述

SciCUEval是由浙江大学团队于2025年推出的一个综合性基准数据集，旨在评估大语言模型在科学领域的上下文理解能力。该数据集由Jing Yu、Yuqi Tang等研究人员共同构建，涵盖了生物学、化学、物理学、生物医学和材料科学等多个科学领域。SciCUEval通过整合结构化表格、知识图谱和非结构化文本等多种数据模态，系统性地评估模型在相关信息识别、信息缺失检测、多源信息整合和上下文感知推理四个核心能力上的表现。该数据集的推出填补了科学领域上下文理解评估的空白，为科学领域大语言模型的发展提供了重要的基准和参考。

当前挑战

SciCUEval面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，科学文本通常包含大量专业术语、隐含假设和多模态数据表示，这对模型的上下文理解能力提出了更高要求。现有的大语言模型在科学领域的表现仍有待提升，尤其是在处理结构化数据和复杂推理任务时。在构建过程中，数据收集和标注的复杂性是一个主要挑战，科学数据的异构性和专业性要求高质量的标注和验证。此外，如何确保生成的问题和答案的科学准确性和多样性也是一个难点。这些挑战需要通过多学科合作和技术创新来克服。

常用场景

经典使用场景

SciCUEval数据集在评估大型语言模型（LLMs）在科学领域上下文理解能力方面具有经典应用场景。该数据集通过涵盖生物学、化学、物理学、生物医学和材料科学等多个学科，结合结构化表格、知识图谱和非结构化文本等多种数据模态，系统评估模型在相关信息识别、信息缺失检测、多源信息整合和上下文感知推理四个核心能力上的表现。这一场景为研究者提供了一个标准化、全面的评估框架，帮助深入理解模型在复杂科学语境下的实际表现。

实际应用

在实际应用层面，SciCUEval数据集为科学研究和产业应用提供了重要参考。在学术研究领域，该数据集可用于评估和改进面向科学任务的对话系统、文献检索工具和知识图谱构建系统。在医药研发、材料发现等产业应用中，基于该数据集优化的模型能够更准确地处理科学文献、实验数据和专利信息，辅助研究人员进行知识发现和决策支持。此外，数据集还为科学教育领域的智能问答系统和个性化学习工具开发提供了评估基准。

衍生相关工作

围绕SciCUEval数据集，已经衍生出多项重要研究工作。在模型架构方面，DeepSeek-R1和Qwen3-8B等模型通过引入显式推理机制，显著提升了在科学语境理解任务上的表现。在评估方法上，研究者们基于该数据集开发了更精细的科学能力评估框架，如细粒度错误分析和多维度评分体系。此外，该数据集还促进了科学领域专用模型（如ChemDFM和SciGLM）的优化，以及通用模型在科学任务上的适配研究，推动了科学语言理解技术的整体进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集