KRAMABENCH
收藏arXiv2025-06-07 更新2025-06-11 收录
下载链接:
https://github.com/mitdbg/KramaBench
下载链接
链接失效反馈官方服务:
资源简介:
KRAMABENCH是一个由104个手动整理的真实世界数据科学管道组成的基准,涵盖了来自24个数据源的1700个数据文件,涉及6个不同领域。这些管道测试了AI系统在数据处理方面的端到端能力,包括数据发现、数据清洗和准备、高效处理、统计推理以及根据高级任务编排数据处理步骤。数据集用于评估AI模型在设计和执行复杂数据科学管道方面的能力,旨在推动自主数据科学代理在现实世界应用中的发展。
KRAMABENCH is a benchmark consisting of 104 manually curated real-world data science pipelines. It encompasses 1700 data files from 24 data sources and spans 6 distinct domains. These pipelines evaluate the end-to-end data processing capabilities of AI systems, including data discovery, data cleaning and preparation, efficient data processing, statistical inference, and the orchestration of data processing workflows based on high-level tasks. The dataset is designed to assess the ability of AI models to design and execute complex data science pipelines, with the goal of advancing the development of autonomous data science agents for real-world applications.
提供机构:
MIT CSAIL
创建时间:
2025-06-07
搜集汇总
数据集介绍

构建方式
KRAMABENCH数据集通过精心筛选六个不同领域的真实数据科学任务构建而成,包括考古学、天文学、生物医学、环境科学、法律发现和野火预防。每个任务均基于公开可获取的研究论文和数据集,确保数据的真实性和多样性。构建过程中,研究者首先筛选出包含数据科学分析的研究文档,随后根据研究中的可重现发现定义任务,并以自然语言问题的形式呈现。为确保任务的可解性,每个任务均配有手动实现的参考数据科学管道,并分解为多个子任务,每个子任务均标注有输入数据文件和预期输出。
特点
KRAMABENCH数据集包含104个端到端任务和633个子任务,覆盖1700个数据文件和24个数据源,总数据量达1.7GB。其显著特点在于任务的复杂性和多样性,要求系统具备数据发现、清理、整合、统计推理和多步骤管道设计的能力。此外,数据集中的任务根据难度分为“简单”和“困难”两类,其中60.58%的任务被标记为“困难”,需处理多文件输入和长管道子任务。数据集还提供了参考解决方案和子任务标注,便于系统性能的细粒度评估。
使用方法
KRAMABENCH数据集支持三种评估模式:端到端自动化、管道设计和管道实现。在端到端自动化模式下,系统需根据自然语言任务描述和数据集直接生成最终答案;管道设计模式评估系统生成合理解决方案管道的能力;管道实现模式则测试系统在给定子任务描述下正确实现单个子任务的能力。评估时,系统需处理未预处理的数据湖,并通过定量和可重复的指标评分。数据集还提供了参考框架DS-GURU,支持通过LLM生成和调试Python代码实现管道,适用于研究AI系统在真实数据科学场景中的表现。
背景与挑战
背景概述
KRAMABENCH是由MIT CSAIL等机构的研究团队于2025年提出的一个创新性基准测试,旨在评估AI系统在数据湖泊上构建端到端数据科学管道的能力。该基准包含104个真实世界的数据科学任务,覆盖考古学、天文学、生物医学等6个领域,涉及1700多个数据文件和24个数据源。其核心研究问题聚焦于AI系统能否完成从数据发现、清洗到统计推理的完整数据科学流程,填补了现有基准测试在评估端到端数据科学能力方面的空白。
当前挑战
KRAMABENCH面临的主要挑战体现在两个方面:首先在领域问题层面,需要解决多文件集成、脏数据处理、领域知识融合等复杂数据科学任务,这些任务往往需要超过10个处理步骤;其次在构建过程中,研究人员需克服数据来源异构性(结构化/非结构化数据混合)、任务真实性验证(基于专家解决方案反向工程)以及评估体系设计(三级自动化评估框架)等工程挑战。特别是需要确保每个任务的参考解决方案能真实反映专业数据科学家的工作流程,这要求对每个子任务进行双重人工标注验证。
常用场景
经典使用场景
KRAMABENCH数据集在数据科学和人工智能领域中被广泛用于评估AI系统在复杂数据到洞察流程中的表现。该数据集通过提供104个真实世界的数据科学管道任务,覆盖了6个不同领域的1700个数据文件,为研究者提供了一个全面的测试平台。其经典使用场景包括测试AI系统在数据发现、数据清洗、数据整合、统计推理和管道设计等方面的能力。
实际应用
在实际应用中,KRAMABENCH可用于评估和优化企业级数据科学工作流自动化工具。例如,在法律发现领域,该数据集可以测试系统从大量非结构化法律文件中提取关键信息的能力;在环境科学领域,可用于评估系统分析水质数据与降雨量关联性的效率。这些应用直接关联到商业智能、科学研究等实际场景。
衍生相关工作
基于KRAMABENCH,研究者们已经开发了多项相关工作。例如DS-GURU作为参考框架,展示了如何通过LLM分解任务、生成Python代码来实现端到端数据科学管道。此外,该数据集还启发了对现有模型在数据语义理解、领域知识应用和多步推理能力方面的系统性评估,为后续开发更强大的数据科学代理奠定了基础。
以上内容由遇见数据集搜集并总结生成



