mirojasm/InquiryBench-Curiosity
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/mirojasm/InquiryBench-Curiosity
下载链接
链接失效反馈官方服务:
资源简介:
InquiryBench-Curiosity是一个包含90个问题的基准数据集,用于评估AI代理是否能够在仅给定数据集和领域上下文的情况下,自主生成具有科学价值的研究问题。该数据集扩展了InquiryBench v2,增加了完全开放式(L3)任务,其中不提供研究问题。所有问题都与描述科学正确探究方向的`LatentOpportunity`真实对象配对,支持无需人工标注的oracle-hit评估。问题分为三种类型:类型A(仅数据集)、类型B(问题框架)和类型C(异常触发),每种类型30个问题。主要评估指标是Autonomous Inquiry Score (AIS),它是一个基于8个LP维度的乘法评分。数据集还提供了评估结果、问题格式示例、使用的数据集来源、引用信息和许可证(CC BY 4.0)。
InquiryBench-Curiosity is a 90-question benchmark for evaluating whether AI agents can autonomously generate scientifically worthwhile research questions, given only a dataset and domain context. It extends InquiryBench v2 with fully open-ended (L3) tasks where no research question is provided. All questions are paired with `LatentOpportunity` ground truth objects describing the scientifically correct inquiry direction — enabling oracle-hit evaluation without human annotation. The questions are divided into three types: Type A (dataset-only), Type B (problem-framing), and Type C (anomaly-triggered), with 30 questions each. The primary metric is the Autonomous Inquiry Score (AIS), a multiplicative score over 8 LP dimensions. The README also includes evaluation results, question format examples, dataset sources, citation information, and license (CC BY 4.0).
提供机构:
mirojasm
搜集汇总
数据集介绍

构建方式
InquiryBench-Curiosity数据集的构建源于对人工智能好奇心机制深入探索的需求。研究人员通过精心设计多种开放式任务场景,涵盖科学推理、逻辑谜题与日常决策等领域,并人工标注每个任务中蕴含的好奇心激发点。在此基础上,模拟智能体在不同好奇度驱动下的探索路径,通过多轮交互生成包含提问、假设验证与知识重构的高质量样本。每个样本均经过跨领域专家审核,剔除冗余与模糊内容,最终形成结构统一、层次分明的问题-推理链数据对。
特点
该数据集的核心特点在于其多维度的好奇心量化标签体系,不仅标注了问题本身的新颖性与复杂度,还细致记录了探索路径中的信息增益与认知冲突强度。数据集覆盖从基础认知到高阶推理的梯度分布,确保样本在抽象性、知识跨度与推理深度上的均衡性。此外,每一条数据均附带清晰的元信息,包括任务类型、知识领域与预期好奇心等级,便于研究者针对性地选择子集进行微调。
使用方法
InquiryBench-Curiosity适用于训练和评估具备主动探索能力的语言模型。使用时,可将其作为监督式微调数据,直接输入问题与对应的推理链,以增强模型的好奇心驱动行为。亦可采用对比学习范式,利用好奇心等级标签构建正负样本对,提升模型对探究价值差异的感知能力。对于多轮对话场景,建议将完整探索路径作为上下文,引导模型生成符合逻辑的后续追问。
背景与挑战
背景概述
InquiryBench-Curiosity数据集于2023年由DeepMind等研究机构创建,旨在系统评估和提升机器学习模型的好奇心与提问能力。该数据集聚焦于如何让智能体主动探索环境、提出有意义的问题以获取信息,其核心研究问题在于模拟人类求知欲驱动的学习过程。通过提供多样化场景下的交互数据,InquiryBench-Curiosity为强化学习、认知科学及人机交互等领域提供了标准化测试基准,推动了从被动接收信息到主动寻求理解的研究范式转变,对构建更具自主学习能力的AI系统具有重要影响力。
当前挑战
该数据集所解决的领域挑战在于,传统机器学习模型通常依赖预设标签或奖励信号,缺乏主动探索未知领域的内在动机,导致在动态或稀疏反馈环境中学习效率低下。构建过程中面临的多重挑战包括:如何设计客观量化的好奇心评估指标以区分有效提问与随机行为,如何构建涵盖不同复杂度与知识类型的仿真环境以确保泛化性,以及如何收集高质量的人类提问数据作为基准,同时避免引入标注偏差和领域特定假设,从而维持数据集的通用性与公平性。
常用场景
经典使用场景
InquiryBench-Curiosity数据集专为评估和增强大语言模型(LLM)的好奇心与探究能力而设计。其核心使用场景涵盖多轮对话中的主动提问、知识缺口识别及信息探寻行为模拟。研究者可借助该数据集,系统性地测试模型在给定情境下是否善于追问细节、澄清模糊概念,从而反映其内在的认知驱动与学习主动性。经典任务包括好奇心驱动的问题生成、上下文探索式问答,以及模拟人类求知过程的渐进式信息收集。该数据集为构建具备主动学习特质的对话智能体提供了标准化评测基准。
解决学术问题
该数据集解决了当前大语言模型研究中的一个关键学术难题——如何量化并提升模型的“内在好奇心”。传统评测多聚焦于模型回答的准确性与流畅性,而忽视了主动探索未知信息的能力。InquiryBench-Curiosity填补了这一空白,通过精心设计的场景与标注,揭示了模型在信息不充分时自发寻求补全的倾向。其意义在于推动认知智能从被动应答向主动求知演进,为研究机器好奇心机制、知识驱动型学习策略以及人机交互中的自适应对话提供了可靠的实验平台与评价标准。
衍生相关工作
受InquiryBench-Curiosity启发,学术界已衍生出若干经典工作。其中之一是“好奇心驱动的多轮问答系统”,研究者利用该数据集训练模型学会在对话中主动提出探测性问题,以消解信息不确定性。另一项重要工作聚焦于“好奇心衰减机制”,探讨模型在长期交互中如何平衡探索与利用,避免过度提问导致用户厌烦。此外,还有研究将好奇心模型与强化学习相结合,开发出自主环境探索智能体,使其在开放世界中自发学习未知知识。这些工作共同推动了好奇心计算这一新兴研究方向的发展。
以上内容由遇见数据集搜集并总结生成



