SCI-VerifyBench

github2025-10-07 更新2025-10-29 收录

下载链接：

https://github.com/Zhengsh123/SCI-Verifier

下载链接

链接失效反馈

官方服务：

资源简介：

SCI-VerifyBench是一个跨学科基准测试，用于评估大型语言模型在科学验证方面的能力，涵盖数学、物理、化学、生物学和一般科学问答领域。它包含通过领域特定等价变换增强的真实LLM响应，并带有模型和人类专家的高质量标注。该数据集展示了在数学、物理、化学、生物学和问答等多个领域的熟练程度

SCI-VerifyBench is an interdisciplinary benchmark designed to evaluate the scientific verification capabilities of large language models (LLMs), covering the domains of mathematics, physics, chemistry, biology, and general scientific question answering. It contains authentic LLM responses enhanced via domain-specific equivalence transformations, paired with high-quality annotations from both AI models and human experts. This benchmark demonstrates proficiency across multiple fields including mathematics, physics, chemistry, biology, and question answering.

创建时间：

2025-09-29

原始信息汇总

SCI-Verifier数据集概述

数据集基本信息

数据集名称: SCI-VerifyBench
核心功能: 评估大型语言模型科学验证能力的跨学科基准
覆盖领域: 数学、物理、化学、生物学和通用科学问答
数据特点: 包含真实LLM响应，通过领域特定等价转换增强，具有模型和人类专家高质量标注

数据集构成

数据字段说明

uid: 每个问题的唯一标识符
question: 问题文本
gold_answer: 正确答案/参考答案
raw_llm_response: LLM生成的原始响应
llm_response: 根据规则提取的LLM答案最终结果
answer_type: 答案格式（表达式、数值、区间、方程等）
data_source: 问题来源数据集
domain: 问题领域（数学、物理、化学、生物学或QA）
task_type: 任务对应类别
gold_judgment: 验证判断（真/假）
aug: 答案是否通过等价转换生成
llm: 与llm_response相关的LLM

技术框架

SCI-Verifier采用两阶段后训练方法（SFT和RL），开发具有简洁推理能力的科学验证器，在判断答案等价性方面表现出强大能力。

引用信息

bibtex @article{zheng2025sci, title={SCI-Verifier: Scientific Verifier with Thinking}, author={Zheng, Shenghe and Huang, Chenyu and Yu, Fangchen and Yao, Junchi and Ye, Jingqi and Chen, Tao and Luo, Yun and Ding, Ning and Bai, Lei and Cui, Ganqu and others}, journal={arXiv preprint arXiv:2509.24285}, year={2025} }

搜集汇总

数据集介绍

构建方式

在科学验证领域，SCI-VerifyBench的构建采用了跨学科数据整合策略，覆盖数学、物理、化学、生物学及通用科学问答五大领域。该数据集通过收集真实大语言模型生成的原始响应，并应用领域特定的等价变换技术进行增强，确保数据多样性与复杂性。每个问题均配备唯一标识符、标准答案及经过规则提取的最终模型响应，同时标注答案类型与任务类别，构建过程融合了自动化处理与人工专家标注，以保障数据的准确性与权威性。

使用方法

针对SCI-VerifyBench的使用，研究者可通过命令行工具进行系统化评估，指定模型路径、数据根目录及数据集名称等参数，灵活配置提示类型与批量处理规模。该框架支持指令引导、思维链及扩展验证等多种推理模式，通过并行计算与温度调控优化输出稳定性，最终生成详细的性能摘要报告。这种方法不仅简化了验证流程，还确保了评估结果的可重复性与科学性，为推进可靠科学推理研究奠定了坚实基础。

背景与挑战

背景概述

SCI-VerifyBench作为跨学科科学验证基准，由研究团队于2025年提出，旨在系统评估大语言模型在数学、物理、化学、生物及科学问答等多领域的验证能力。该数据集融合真实模型响应与领域特异性等价变换技术，通过人工与模型双重标注机制，为科学推理研究提供了标准化评估框架，显著推动了人工智能在复杂科学问题验证中的可靠性研究。

当前挑战

科学验证任务需应对领域知识异构性带来的语义等价性判定难题，例如数学表达式变形与化学方程式平衡的等效转换。构建过程中面临高质量标注资源稀缺问题，需通过专家知识引导的等价变换技术增强数据多样性，同时确保跨学科标注标准的一致性，这对数据集的泛化能力与评估效度提出严峻考验。

常用场景

经典使用场景

在科学智能领域，SCI-VerifyBench作为跨学科基准测试工具，其经典应用场景在于系统评估大型语言模型在数学、物理、化学、生物及科学问答等领域的验证能力。通过构建包含真实模型响应与等效转换样本的数据结构，该数据集为研究者提供了标准化测试环境，有效衡量模型在复杂科学问题中的逻辑推理与答案验证表现。

解决学术问题

该数据集主要致力于解决科学计算中模型输出可靠性的核心难题。通过引入多领域标注数据与等效变换机制，显著提升了科学验证任务的可复现性与评估维度，为构建具有严谨科学推理能力的人工智能系统奠定了数据基础，推动了可信人工智能在交叉学科研究中的方法论创新。

实际应用

在实际应用层面，SCI-VerifyBench被广泛部署于教育科技与科研辅助领域。其构建的验证框架可集成至智能辅导系统，实现对学生科学问题解答的自动评估；同时为学术出版机构提供论文数据验证工具，有效辅助研究者进行科学论断的交叉检验，提升学术成果的严谨性与可信度。

数据集最近研究