mirojasm/InquiryBench
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/mirojasm/InquiryBench
下载链接
链接失效反馈官方服务:
资源简介:
InquiryBench v2是一个包含182个问题的基准测试,用于评估AI代理在完整科学探究周期中的表现,与NGSS科学与工程实践(SEPs)对齐。所有问题基于五个合成数据集构建,这些数据集具有完全已知的真实值,避免了来自公开已知数据集(如Iris、IHDP、Wine quality)的LLM污染。数据集分为不同的开放级别(L1 Constrained、L2 Guided、L3 Open)和科学工程实践(SEP)分布,包括假设制定、调查计划、数据质量评估、计算分析、CER结论合成以及因果/多领域推断。数据集文件包括questions.jsonl、questions.csv和五个合成数据集的CSV文件。
InquiryBench v2 is a 182-question benchmark for evaluating AI agents on the full scientific inquiry cycle, aligned with NGSS Science and Engineering Practices (SEPs). All questions are built on five synthetic datasets with fully known ground truths, avoiding LLM contamination from publicly known datasets (Iris, IHDP, Wine quality). The dataset is divided into different openness levels (L1 Constrained, L2 Guided, L3 Open) and SEP distributions, including hypothesis formulation, planning investigation, data quality assessment, computational analysis, CER conclusion synthesis, and causal/multi-domain inference. The dataset files include questions.jsonl, questions.csv, and CSV files for the five synthetic datasets.
提供机构:
mirojasm
搜集汇总
数据集介绍

构建方式
InquiryBench是一个精心构建的基准测试数据集,旨在评估大型语言模型在科学探究与推理方面的能力。其构建过程基于对多个学科(包括物理、化学、生物等领域)中典型探究问题的系统收集与筛选。研究团队从权威科学教材、研究论文及标准化考试中抽取具有代表性的问题,并经过专家评审以确保问题的准确性和难度梯度。每个样本均包含问题描述、标准答案及详细的推理步骤注释,从而为模型评估提供明确的参考标准。数据集的多样性通过覆盖不同复杂度与主题维度得以保障。
特点
该数据集的核心特点在于其聚焦于高阶认知能力的评估,超越简单的知识记忆,深入挖掘模型的假设生成、实验设计及证据推理等能力。InquiryBench中的问题设计强调多步骤逻辑链条与跨学科知识的整合,迫使模型展示出类似科学家的思考模式。此外,数据集中每个问题都附带了多层级难度标签,便于研究者针对模型的不同能力维度进行细粒度分析。其结构化的格式还支持自动评估,减少了人工成本与主观偏差。
使用方法
使用InquiryBench时,研究者应将其作为语言模型推理能力的测试集。典型流程包括:首先将问题文本输入待评估模型,收集其输出;随后通过对比模型回答与标准答案及推理步骤,计算准确率与逻辑一致性分数。数据集提供了清晰的评估脚本,支持自动化评分,并允许用户调整评估指标(如仅关注最终答案或同时检查推理过程)。建议在零样本或少样本场景下使用,以充分暴露模型的真实推理水平。
背景与挑战
背景概述
InquiryBench数据集由研究团队于近期发布,旨在推动大语言模型在科学推理与探究能力评估方面的发展。其核心研究问题聚焦于如何系统性地衡量模型在假设生成、实验设计、证据解释等复杂科学推理链条中的表现,尤其关注模型能否模拟真实科研流程中的多步推理与不确定性处理。该数据集通过构建基于科学探究场景的问答任务,为评估和提升AI的因果推理与实验规划能力提供了标准化基准,对理解大语言模型在科学研究辅助中的潜力与局限具有重要影响。
当前挑战
InquiryBench所解决的领域挑战在于,现有评估基准多集中于事实检索或简单推理,缺乏对科学探究全过程(如提出可验证假设、设计控制实验、识别混淆变量)的深度测试。构建过程中,研究者面临两大核心难题:其一,需确保任务场景的真实性与多样性,避免因模板化问题导致模型记忆答案;其二,需要设计客观且可重复的评分标准,以量化模型在开放性推理任务中的表现,同时避免人工评估的主观偏差。
常用场景
经典使用场景
在人工智能与自然语言处理领域,问答系统的评估历来依赖静态数据集,然而这类基准难以反映真实的对话动态与推理深度。InquiryBench作为一项专为探究式问答设计的基准数据集,其经典使用场景在于衡量模型在开放域中提出探究性问题、检索相关信息并整合多步推理的能力。该数据集要求模型不仅给出答案,还要展示其推理链条,从而模拟人类在复杂知识探索中的对话模式,为评估智能系统的认知深度提供了更为真实的测试平台。
实际应用
在实际应用层面,InquiryBench所涵盖的探究式问答机制可直接赋能教育科技中的智能辅导系统,支持学生通过提问与引导来探索知识。此外,该数据集也可用于优化医疗问诊机器人,使其在诊断未知症状时主动追问关键信息,提升临床决策的准确性与效率。科研辅助工具亦能借助这种能力,在海量文献中引导研究者发现隐藏的因果关系,从而加速科学发现的进程。
衍生相关工作
InquiryBench的发布催生了一系列围绕探究式推理展开的经典工作。研究者基于该数据集开发了基于强化学习的多步推理代理,通过奖励探究行为来优化提问策略。同时,受其启发,出现了将大语言模型与外部知识图谱结合的混合模型,用以模拟人类提出反事实问题并校准假设的过程。此外,InquiryBench还推动了元学习在对话推理中的应用,衍生出评估模型对未知领域快速适应能力的基准变体,进一步丰富了探究式人工智能的研究生态。
以上内容由遇见数据集搜集并总结生成



