discoverybench
收藏Hugging Face2025-04-30 更新2025-05-01 收录
下载链接:
https://huggingface.co/datasets/nhop/discoverybench
下载链接
链接失效反馈官方服务:
资源简介:
DiscoveryBench-Alias是一个重新格式化的数据集,基于原始的DiscoveryBench数据集,以便于使用。它包含真实和合成的数据子集,用于自然语言推理,要求模型使用数据来推理并回答问题。
创建时间:
2025-04-29
原始信息汇总
DiscoveryBench数据集概述
基本信息
- 许可证: odc-by
- 语言: 英语 (en)
- 任务类别: 文本生成 (text-generation)
- 标签: 科学 (science)、基准测试 (benchmark)、假设生成 (hypothesis-generation)、数据驱动 (data-driven)
- 规模类别: n<1K (小于1000个样本)
数据集结构
- 总样本数: 550
- 总大小: 2,271,813字节
- 下载大小: 235,325字节
- 配置:
real_testreal_trainsynth_devsynth_testsynth_train
字段描述
| 字段名称 | 数据类型 | 描述 |
|---|---|---|
id |
string | 查询的唯一标识符 |
domain |
string | 查询的主题领域 |
datasets |
list | 数据集元数据(文件名、列名、描述) |
difficulty |
int64 | 难度级别 |
question_type |
string | 所需分析类型 |
question |
string | 使用数据集回答的研究问题 |
gold_hypothesis |
string | 真实假设 |
子集划分
- 真实数据子集:
real_trainreal_test
- 合成数据子集:
synth_trainsynth_devsynth_test
相关资源
- 原始数据集: https://huggingface.co/datasets/allenai/discoverybench
- GitHub仓库: https://github.com/allenai/discoverybench/
- 论文: https://arxiv.org/pdf/2407.01725v1
引用
bibtex @article{majumder2024discoverybench, author = {Bodhisattwa Prasad Majumder and Harshit Surana and Dhruv Agarwal and Bhavana Dalvi Mishra and Abhijeetsingh Meena and Aryan Prakhar and Tirth Vora and Tushar Khot and Ashish Sabharwal and Peter Clark}, title = {DiscoveryBench: Towards Data-Driven Discovery with Large Language Models}, journal = {arXiv preprint arXiv:2407.01725}, year = {2024} }
搜集汇总
数据集介绍

构建方式
DiscoveryBench数据集采用多源异构数据整合策略,通过科学工作流标注构建而成。该数据集包含真实数据和合成数据两大子集,其中真实数据来源于社会科学领域的实际研究案例,由领域专家对数据特征、研究问题和假设进行系统标注;合成数据则通过程序化生成方式模拟真实研究场景。每个数据样本均包含完整的元数据描述,涵盖领域分类、数据集结构、问题类型和标准答案等要素,并采用统一标识符实现数据溯源。
特点
该数据集最显著的特征在于其多模态任务设计,既包含传统的数据分析问题,也涵盖假设生成和科学推理等高级认知任务。数据样本按照研究领域(如社会学)和问题类型(如关系分析)进行双重分类,并标注了难度等级。特别值得注意的是,真实测试集部分还提供了领域专业知识注释,为模型理解复杂研究背景提供了必要支持。各子集之间保持一致的字段结构,但根据训练和测试需求差异化配置了工作流标签和黄金步骤等特殊字段。
使用方法
使用该数据集时需采用分步处理策略:首先通过Hugging Face接口加载指定子集(如real_test),随后根据样本中的数据集引用下载对应的CSV文件。典型工作流包括解析研究问题、提取数据集元数据、加载实际数据文件,最终结合问题上下文进行推理或假设验证。数据集特别设计了与pandas等数据分析库的无缝衔接,用户可直接将标注的列描述信息与具体数据字段映射。对于合成数据子集,建议重点关注其程序化生成的问题模式,可用于模型鲁棒性测试。
背景与挑战
背景概述
DiscoveryBench数据集由AllenAI研究团队于2024年推出,旨在推动数据驱动发现领域的研究。该数据集聚焦于科学假设生成任务,通过整合真实与合成数据子集,为大型语言模型提供了多领域、多难度的研究问题。数据集涵盖社会学、经济学等多个学科领域,每个任务均包含原始数据集、研究问题及标准假设,为评估模型的数据分析与推理能力建立了标准化基准。其创新性在于将数据科学工作流程与自然语言处理任务相结合,为人工智能辅助科学发现开辟了新途径。
当前挑战
DiscoveryBench面临的核心挑战体现在两个方面:科学问题层面,如何设计能够准确评估模型跨领域数据理解与假设生成能力的任务框架,这要求平衡问题的学科代表性与难度梯度;技术构建层面,数据集整合了异构的原始数据格式,需确保数据质量一致性与标注准确性,同时合成数据的生成需保持与现实问题的相关性。多模态任务设计带来的工作流程标注复杂性,以及真实场景下开放性问题与封闭性评估之间的张力,均为数据集的构建提出了严峻考验。
常用场景
经典使用场景
在科学研究和数据分析领域,DiscoveryBench数据集为评估大型语言模型(LLMs)在数据驱动发现任务中的表现提供了标准化的测试平台。该数据集通过包含真实和合成两个子集,模拟了从社会科学到自然科学的跨领域研究问题,要求模型基于提供的CSV数据集进行推理并生成假设。研究人员通常利用该数据集来测试模型在理解数据、执行统计分析以及生成科学假设方面的能力。
衍生相关工作
围绕DiscoveryBench数据集已产生多项重要研究。原团队开发的基准测试框架被广泛应用于评估GPT-4、Claude等大模型的科学推理能力。后续研究如Data-Centric AI和AutoML领域的工作都借鉴了其任务设计思路。该数据集还启发了多个衍生项目,包括专注于特定学科领域的子基准测试,以及结合可视化分析的新型评估方法。
数据集最近研究
最新研究方向
在科学发现与数据驱动研究领域,DiscoveryBench数据集正推动大型语言模型(LLM)在假设生成与验证方面的前沿探索。该数据集通过整合真实与合成数据子集,为研究者提供了多领域(如社会学)的标准化测试平台,特别关注模型从结构化数据中提取洞见、构建科学假设的能力。近期研究聚焦于三个核心方向:一是探索LLM在跨域数据分析中的推理链构建,通过gold_workflow标注优化模型的逐步推理能力;二是开发基于workflow_tags的自动化分析流程分类技术,提升模型对复杂研究问题的分解能力;三是利用domain_knowledge字段研究领域知识注入对假设可信度的提升效果。这些研究直接呼应了当前AI for Science领域对可解释、可复现研究范式的需求,为数据驱动的科学发现提供了新的方法论框架。
以上内容由遇见数据集搜集并总结生成



