information-gathering

Hugging Face2025-05-31 更新2025-06-01 收录

下载链接：

https://huggingface.co/datasets/stair-lab/information-gathering

下载链接

链接失效反馈

官方服务：

资源简介：

信息收集数据集支持使用大型语言模型进行自适应提问和决策研究。它能够用于训练和评估系统在与不确定性作决策前，如何交互式地获取相关信息。数据集包含三个关键领域：1D-ARC（一种适用于主动基于查询的视觉模式完成的符号推理任务），GSM8K-Q（带有结构化方程和变量注释的口头数学推理基准），Fermi（作为信息寻求任务的真实世界估计问题，具有丰富的事实背景）。所有任务都旨在测试LLM通过选择基于熵最小化准则的 informative后续问题来有效减少不确定性的能力。

创建时间：

2025-05-31

原始信息汇总

数据集概述：stair-lab/information-gathering

数据集摘要

支持大型语言模型（LLMs）在自适应提问和决策制定方面的研究。
用于训练和评估在不确定性下通过交互获取相关信息以做出准确决策的系统。
应用于论文《Gathering Context that Supports Decisions via Entropy Search with Language Models》(2025)。

关键领域

1D-ARC（符号推理）
- 任务：基于主动查询的视觉模式补全的符号推理任务。
- 格式：JSON文件，包含train和test分割。
- 结构：每个示例包含input和output字段，用于识别1D数组中的符号去噪模式。
GSM8K-Q（数学推理）
- 任务：带有结构化方程和变量注释的数学推理基准。
- 格式：CSV文件。
- 字段：包括Rewritten Problem、Variables、Equations、CSP、Full Answer等。
Fermi（估计与科学问答）
- 任务：基于信息搜索任务的现实世界估计问题。
- 格式：JSONL文件。
- 结构：包含question、program、context、answer、choices、scale、variables等字段。

数据集使用

加载方式： python from datasets import load_dataset dataset = load_dataset("stair-lab/information-gathering")
子集访问：
- arc1d：1D-ARC数据。
- gsm：GSM8K-Q数据。
- fermi：Fermi数据。

应用场景

熵引导信息获取的训练和评估。
不确定性感知推理、上下文压缩和少样本符号推理的研究。
使用结构化语义监督对LLMs进行微调。

引用

bibtex @inproceedings{sang2025entropysearch, title={Gathering Context that Supports Decisions via Entropy Search with Language Models}, author={Wen, Jonathan and others}, booktitle={NeurIPS}, year={2025} }

许可

数据集内容采用MIT License发布。

搜集汇总

数据集介绍

构建方式

该数据集通过精心设计的跨领域任务框架构建，涵盖符号推理、数学问题求解和现实世界估计三大核心领域。在1D-ARC模块中采用JSON格式存储一维数组模式识别任务，GSM8K-Q通过CSV文件增强数学应用题的结构化变量标注，Fermi部分则以JSONL格式整合科学问答的符号化程序与事实上下文。所有数据均遵循熵最小化准则，支持模型通过主动提问获取关键信息。

特点

数据集最显著的特征在于其多模态任务设计，既包含抽象符号推理的1D-ARC基准，又融合具备完整变量绑定和方程注释的GSM8K-Q数学问题，同时整合了带事实使用记录的Fermi现实估计问题。这种三元结构有效模拟了决策过程中的不确定性消解场景，每个子集都配备详尽的元数据标注，包括符号程序、变量描述和中间推理步骤，为可解释性研究提供丰富素材。

使用方法

使用者可通过Hugging Face的datasets库直接加载数据集整体或特定子集，arc1d、gsm和fermi三个模块分别对应不同任务类型。典型应用场景包括训练LLM进行熵引导的信息获取，或评估模型在部分可观测环境中的推理能力。数据加载后可直接用于思维链提示、反射式推理等训练范式，结构化语义标注特别适合监督式微调和强化学习框架的反馈生成。

背景与挑战

背景概述

由斯坦福大学stair-lab团队于2025年发布的information-gathering数据集，标志着大语言模型在不确定性决策与自适应信息获取研究领域的重要突破。该数据集聚焦于熵搜索机制下的智能信息采集，包含符号推理（1D-ARC）、数学问题求解（GSM8K-Q）和现实世界估算（Fermi）三大核心模块，为研究语言模型在部分可观测环境中的主动提问策略提供了标准化测试平台。其创新性体现在将传统决策问题转化为动态信息获取过程，通过结构化标注实现了推理步骤的可解释性验证，相关成果发表于神经信息处理系统大会（NeurIPS），推动了认知智能系统在医疗诊断、金融分析等需要渐进式信息整合的领域发展。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，如何设计有效的熵最小化标准来优化语言模型的连续提问策略，特别是在跨域任务中平衡探索与利用的权衡；在符号推理任务中，需要解决稀疏奖励下的模式归纳难题。在构建过程中，研究者需克服多模态数据对齐的复杂性——GSM8K-Q要求精确匹配自然语言描述与数学符号系统，Fermi数据集则涉及海量现实知识的程序化表达与变量绑定。此外，保持三个子数据集在评估指标上的一致性，同时满足不同任务对上下文长度和结构化输出的差异化需求，构成了显著的工程挑战。

常用场景

经典使用场景

在自然语言处理领域，information-gathering数据集为研究大型语言模型（LLMs）的适应性提问和决策制定提供了重要支持。该数据集通过1D-ARC符号推理任务、GSM8K-Q数学推理问题和Fermi现实世界估计问题，构建了一个多领域的测试平台，用于评估模型在不确定性条件下如何通过交互式提问获取相关信息并做出准确决策。

衍生相关工作

该数据集衍生了多项经典研究工作，包括基于熵搜索的上下文获取方法、不确定性感知推理框架以及结合链式思考（CoT）和强化学习（PPO）的混合训练策略。这些工作进一步推动了LLMs在信息密集任务中的应用，并为后续研究提供了丰富的实验基础和理论参考。

数据集最近研究