discoverybench

Hugging Face2025-04-30 更新2025-05-01 收录

下载链接：

https://huggingface.co/datasets/nhop/discoverybench

下载链接

链接失效反馈

官方服务：

资源简介：

DiscoveryBench-Alias是一个重新格式化的数据集，基于原始的DiscoveryBench数据集，以便于使用。它包含真实和合成的数据子集，用于自然语言推理，要求模型使用数据来推理并回答问题。

创建时间：

2025-04-29

原始信息汇总

DiscoveryBench数据集概述

基本信息

许可证: odc-by
语言: 英语 (en)
任务类别: 文本生成 (text-generation)
标签: 科学 (science)、基准测试 (benchmark)、假设生成 (hypothesis-generation)、数据驱动 (data-driven)
规模类别: n<1K (小于1000个样本)

数据集结构

总样本数: 550
总大小: 2,271,813字节
下载大小: 235,325字节
配置:
- real_test
- real_train
- synth_dev
- synth_test
- synth_train

字段描述

字段名称	数据类型	描述
`id`	string	查询的唯一标识符
`domain`	string	查询的主题领域
`datasets`	list	数据集元数据（文件名、列名、描述）
`difficulty`	int64	难度级别
`question_type`	string	所需分析类型
`question`	string	使用数据集回答的研究问题
`gold_hypothesis`	string	真实假设

子集划分

真实数据子集:
- real_train
- real_test
合成数据子集:
- synth_train
- synth_dev
- synth_test

引用

bibtex @article{majumder2024discoverybench, author = {Bodhisattwa Prasad Majumder and Harshit Surana and Dhruv Agarwal and Bhavana Dalvi Mishra and Abhijeetsingh Meena and Aryan Prakhar and Tirth Vora and Tushar Khot and Ashish Sabharwal and Peter Clark}, title = {DiscoveryBench: Towards Data-Driven Discovery with Large Language Models}, journal = {arXiv preprint arXiv:2407.01725}, year = {2024} }

搜集汇总

数据集介绍

构建方式

DiscoveryBench数据集采用多源异构数据整合策略，通过科学工作流标注构建而成。该数据集包含真实数据和合成数据两大子集，其中真实数据来源于社会科学领域的实际研究案例，由领域专家对数据特征、研究问题和假设进行系统标注；合成数据则通过程序化生成方式模拟真实研究场景。每个数据样本均包含完整的元数据描述，涵盖领域分类、数据集结构、问题类型和标准答案等要素，并采用统一标识符实现数据溯源。

特点

该数据集最显著的特征在于其多模态任务设计，既包含传统的数据分析问题，也涵盖假设生成和科学推理等高级认知任务。数据样本按照研究领域（如社会学）和问题类型（如关系分析）进行双重分类，并标注了难度等级。特别值得注意的是，真实测试集部分还提供了领域专业知识注释，为模型理解复杂研究背景提供了必要支持。各子集之间保持一致的字段结构，但根据训练和测试需求差异化配置了工作流标签和黄金步骤等特殊字段。

使用方法

使用该数据集时需采用分步处理策略：首先通过Hugging Face接口加载指定子集（如real_test），随后根据样本中的数据集引用下载对应的CSV文件。典型工作流包括解析研究问题、提取数据集元数据、加载实际数据文件，最终结合问题上下文进行推理或假设验证。数据集特别设计了与pandas等数据分析库的无缝衔接，用户可直接将标注的列描述信息与具体数据字段映射。对于合成数据子集，建议重点关注其程序化生成的问题模式，可用于模型鲁棒性测试。

背景与挑战

背景概述

DiscoveryBench数据集由AllenAI研究团队于2024年推出，旨在推动数据驱动发现领域的研究。该数据集聚焦于科学假设生成任务，通过整合真实与合成数据子集，为大型语言模型提供了多领域、多难度的研究问题。数据集涵盖社会学、经济学等多个学科领域，每个任务均包含原始数据集、研究问题及标准假设，为评估模型的数据分析与推理能力建立了标准化基准。其创新性在于将数据科学工作流程与自然语言处理任务相结合，为人工智能辅助科学发现开辟了新途径。

当前挑战

DiscoveryBench面临的核心挑战体现在两个方面：科学问题层面，如何设计能够准确评估模型跨领域数据理解与假设生成能力的任务框架，这要求平衡问题的学科代表性与难度梯度；技术构建层面，数据集整合了异构的原始数据格式，需确保数据质量一致性与标注准确性，同时合成数据的生成需保持与现实问题的相关性。多模态任务设计带来的工作流程标注复杂性，以及真实场景下开放性问题与封闭性评估之间的张力，均为数据集的构建提出了严峻考验。

常用场景

经典使用场景

在科学研究和数据分析领域，DiscoveryBench数据集为评估大型语言模型（LLMs）在数据驱动发现任务中的表现提供了标准化的测试平台。该数据集通过包含真实和合成两个子集，模拟了从社会科学到自然科学的跨领域研究问题，要求模型基于提供的CSV数据集进行推理并生成假设。研究人员通常利用该数据集来测试模型在理解数据、执行统计分析以及生成科学假设方面的能力。

衍生相关工作

围绕DiscoveryBench数据集已产生多项重要研究。原团队开发的基准测试框架被广泛应用于评估GPT-4、Claude等大模型的科学推理能力。后续研究如Data-Centric AI和AutoML领域的工作都借鉴了其任务设计思路。该数据集还启发了多个衍生项目，包括专注于特定学科领域的子基准测试，以及结合可视化分析的新型评估方法。

数据集最近研究