SCICONVBENCH

Name: SCICONVBENCH
Creator: 伦斯勒理工学院; 德克萨斯大学阿灵顿分校; 太平洋西北国家实验室; 国家可再生能源实验室
Published: 2026-05-19 00:34:45
License: 暂无描述

arXiv2026-05-19 更新2026-05-20 收录

下载链接：

https://github.com/csml-rpi/SciConvBench

下载链接

链接失效反馈

官方服务：

资源简介：

SCICONVBENCH是由伦斯勒理工学院等机构联合构建的科学对话基准数据集，专注于计算科学中任务制定的多轮澄清评估。该数据集包含1142个实例，覆盖流体力学、固体力学、材料科学和偏微分方程四大领域，通过人工转换教育资源和基准任务构建，每个实例均植入了信息缺失或矛盾冲突。其核心在于评估大型语言模型在科学对话中通过交互澄清模糊信息与解决内在矛盾的能力，旨在提升计算科学助手的上游任务制定可靠性，避免因沉默假设导致下游执行错误。

提供机构：

伦斯勒理工学院; 德克萨斯大学阿灵顿分校; 太平洋西北国家实验室; 国家可再生能源实验室

创建时间：

2026-05-19

原始信息汇总

SCICONVBENCH 数据集详情

数据集概述

SCICONVBENCH 是一个用于评估大语言模型（LLM）在多轮对话中通过澄清提问来完善计算科学任务描述能力的基准测试数据集。该数据集涵盖流体力学、偏微分方程（PDEs）、固体力学和材料科学等多个科学领域。

核心目标：该基准测试并非测试 LLM 解决科学任务的能力，而是评估其在面对包含歧义（缺失关键词）或不一致（矛盾信息）的科学任务时，能否通过提问澄清问题，最终恢复出完整、正确且无歧义的任务规范。

评估方式：基于智能体最终生成的任务规范以及其达成该规范的对话过程进行综合评估。

数据集获取

数据集已直接包含在该 GitHub 仓库中。此外，数据集也已正式托管在 Kaggle 平台，支持数据探索和直接下载：

Kaggle 数据集：SCICONVBENCH Kaggle Dataset

数据集目录结构

科学领域主目录

每个领域目录包含核心数据集文件、运行结果和评估输出：

foam/：泡沫相关领域
fluids/：流体力学领域
pde/：偏微分方程领域
matSci/：材料科学领域
matToolUse/：材料工具使用领域
solMech/：固体力学领域
solToolUse/：固体工具使用领域

基线目录

包含智能体在未被告知需要关注缺失实体或矛盾信息情况下的实验结果：

foam_baseline/、fluids_baseline/、pde_baseline/、matSci_baseline/、matToolUse_baseline/、solMech_baseline/、solToolUse_baseline/

其他目录

clamber/：非科学文献数据集及实验，用于测试智能体在科学领域外的消歧能力
judge_ablation/、prompt_ablation/、user_llm_ablation/：消融实验结果，验证评估模型变化、提示词改写、用户模拟模型变化对性能无显著影响
figs/：论文中所有图表输出（PNG 和 PDF 格式）
tables/：论文中所有 LaTeX 表格输出

数据文件结构（以 `foam/` 为例）

每个科学领域目录内部的结构如下：

根级别文件

disambiguation_[domain].json：歧义数据集文件
inconsistency_[domain].json：不一致数据集文件

模型与模式文件夹

每个模型在每个模式（歧义/不一致）下有一个独立文件夹，例如：

GEMINI_2_5_PRO_Disambiguation
GEMINI_2_5_PRO_Inconsistency

汇总文件（位于模型/模式文件夹内）

llm_judge_chat_summary.json：跨所有案例的对话指标汇总
llm_judge_summary.json：任务恢复/成功指标汇总
llm_judge_intent_summary.json：忠实度评估结果
disambiguation_coverage_summary.json：仅适用于 foam/fluids/pde 领域的消歧任务

单个案例文件夹

每个案例包含以下文件：

complete_prompt.txt：真实标准提示
generated_prompt.txt：智能体最终返回的任务规范
statistics.json：Token 使用量和提问次数
conversation_log.txt：对话记录

数据集应用

该数据集主要配合仓库中的脚本使用，支持的工作流程包括：

运行对话智能体：使用 test_runner.py 脚本，指定数据集模式、输出目录、科学领域和模型
评估性能：使用评估脚本（llm_judge_intent.py、llm_judge_disambiguation.py、llm_judge_inconsistency.py 等）评估忠实度、消歧效果和不一致性解决效果
生成论文成果：使用 make_paper_artifacts.py 脚本自动生成图表和 LaTeX 表格

支持的科学领域

领域代码	领域名称	数据类型
foam	泡沫力学	歧义/不一致
fluids	流体力学	歧义/不一致
pde	偏微分方程	歧义/不一致
matSci	材料科学	歧义/不一致
matToolUse	材料工具使用	歧义/不一致
solMech	固体力学	歧义/不一致
solToolUse	固体工具使用	歧义/不一致

搜集汇总

数据集介绍

构建方式

SCICONVBENCH的构建分为两个阶段。研究团队首先从经过验证的教育、基准测试及工具资源中收集流体力学、固体力学、材料科学与偏微分方程四个领域的清晰科学任务，形成源任务池。随后，通过专家手工将每个源任务转化为对话实例：对于歧义消除任务，移除边界条件、材料属性等关键信息；对于矛盾消解任务，植入相互冲突的陈述。整个转换过程逐条进行，以保证科学问题的领域依赖性。每个实例中的缺失实体或冲突均被标注至结构化任务本体的对应组件。最终，经过未参与初始提示撰写的领域专家审核与筛选，去除过于简单或所有模型均能解决的案例，形成了包含1142个实例的基准数据集。

特点

SCICONVBENCH的核心特点在于它聚焦于科学任务表述的上游对话推理能力，而非传统的执行能力。它基于结构化任务本体与基于规则的评估框架，系统性地测量模型在三个维度上的表现：澄清行为、对话依据与最终规范的保真度。基准涵盖两个互补的任务类型——歧义消除（需获取缺失信息）与矛盾消解（需检测并修正内部矛盾）。与通用领域澄清基准相比，SCICONVBENCH在计算科学领域表现出显著更高的难度，例如Gemini 2.5 Pro在通用CLAMBER上解决率为86.1%，而在本基准的流体力学歧义消除任务中仅达18.2%。此外，基准揭示了前沿模型普遍的“静默假设”与“隐式修复”问题，即模型未通过对话与用户确认便自行做出科学假设。

使用方法

SCICONVBENCH通过多轮对话协议评估模型。每个实例从一个包含缺失或矛盾信息的初始用户请求开始。辅助模型（助理）每轮只能提出一个澄清问题，并与模拟用户进行最多11轮交互（对应最多10个植入问题）。模拟用户严格依据隐藏的完整规范回答，缺失信息时回复“请根据最佳实践做合理假设”。交互结束后，模型需输出最终澄清规范。评估采用LLM作为裁判，结合每个案例特定的专家裁定规则，分别判断最终规范是否正确（最终解决率）、是否通过对话明确澄清（对话依据解决率）以及是否忠实于用户意图（意图保真度）。进一步的分析维度包括能力、鲁棒性与可用性，用于诊断模型成功或失败的具体原因。

背景与挑战

背景概述

SCICONVBENCH创建于2025年，由伦斯勒理工学院、太平洋西北国家实验室、德克萨斯大学阿灵顿分校以及国家可再生能源实验室的研究人员共同打造，核心作者包括Nithin Somasekharan、Youssef Hassan、Shaowu Pan等人。该数据集的诞生源于一个深刻的洞察：尽管大规模语言模型在科学计算领域展现出巨大潜力，现有多数基准测试却假设科学问题已被完美定义，忽视了实践中用户请求往往含糊不清或存在矛盾这一关键上游环节。因此，SCICONVBENCH将研究焦点对准了科学任务形式化过程中的多轮澄清能力，系统评估模型在流体力学、固体力学、材料科学和偏微分方程四个计算科学领域中，通过对话主动索取缺失信息并纠正内部矛盾的能力。这一开创性工作将评估的起点从“模型能否解决问题”前移至“模型能否帮助正确定义问题”，为构建可靠的科学人工智能助手奠定了重要的评测基础。

当前挑战

SCICONVBENCH所面临的挑战首先来自其核心领域问题：现有多轮澄清基准主要服务于通用或信息检索场景，其模糊性多源于多义词选择或用户偏好，而计算科学中的任务形式化要求模型必须精准识别并追问缺失的边界条件、材料属性或矛盾的数值约束——这些细节的遗漏将直接导致物理上无效的仿真结果。此外，数据集构建过程本身也充满困难：必须从经过严格审核的教科书和工具资源中选取基础科学任务，再通过专家逐条手工转化为包含缺失信息或冲突信息的对话实例，确保每个缺失实体或矛盾植入都符合科学逻辑且无法通过简单模式识别破解。实验数据显示，即便最先进的模型在流体力学消歧任务中也仅能解决52.7%的案例，且普遍存在“静默假设”问题——模型频繁在不与用户对话确认的情况下自行修补规格，这种不可审计的推断行为对科学工作流的可复现性构成了严峻威胁。

常用场景

经典使用场景

在计算科学领域，大语言模型常被部署为科学AI助手，然而现有基准测试大多假设科学问题已被完整定义，忽略了从模糊需求到精确任务陈述这一关键上游环节。SCICONVBENCH正是为此而生，它专注于评测模型在流体力学、固体力学、材料科学和偏微分方程四个计算科学领域中，通过多轮对话澄清任务表述的能力。其经典使用场景是：给定一个缺失关键信息或包含内部矛盾的初始科学请求，模型需主动向模拟用户提问以补全信息或修复冲突，最终输出一份完整、无歧义且忠实于用户意图的最终任务规格说明。

解决学术问题

SCICONVBENCH填补了现有科学大语言模型评测体系中的一个重要空白——即模型能否在开始计算、编写代码或调用工具之前，先与用户协作把任务定义清楚。它系统性地衡量模型在两种互补能力上的表现：一是从模糊请求中挖掘缺失信息的消歧能力，二是检测并纠正请求中自相矛盾之处的冲突解决能力。通过引入本体论驱动的结构化任务规约和基于评分细则的评估框架，该基准能揭示模型是否在对话中真正澄清了问题，还是暗自做出未与用户沟通的假设，这为科学AI助手的可靠性提供了关键度量手段。

衍生相关工作

SCICONVBENCH的提出催生了若干值得关注的后续研究方向。其本体论驱动的任务规约思想启发了将科学任务分解为更细粒度知识组件的评测方法，推动了面向特定学科（如偏微分方程数值求解、密度泛函理论计算）的澄清能力基准开发。该基准中揭示的“最终正确性”与“对话锚定性”之间的鸿沟，促使研究者设计更严格的对话评估指标并开发鼓励模型进行显式澄清的训练策略。此外，基于SCICONVBENCH的分析框架，已有工作探索利用强化学习来优化模型的多轮提问行为，以及构建更逼真的用户模拟器以提升基准测试的真实性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集