five

ELT-Bench-Verified

收藏
arXiv2026-04-03 更新2026-04-05 收录
下载链接:
https://github.com/uiuc-kang-lab/ELT-Bench/pull/18
下载链接
链接失效反馈
官方服务:
资源简介:
ELT-Bench-Verified是由IBM研究院、苏黎世联邦理工学院等机构联合构建的基准数据集,旨在评估AI代理在端到端ELT(提取-加载-转换)管道构建中的能力。该数据集包含100项任务,涵盖异构数据源连接、云数据仓库加载及SQL转换逻辑生成,数据规模涉及203个目标数据模型的660列级比对。其构建过程通过审计-校正框架(Fleiss’ κ=0.85人工验证)对原始ELT-Bench的标注错误进行系统性修正,解决了32%的基准归因错误。该数据集主要应用于数据工程自动化领域,为AI驱动的工作流优化提供可靠性验证基准。
提供机构:
IBM研究院; 苏黎世联邦理工学院; 伊利诺伊大学·厄巴纳-香槟分校
创建时间:
2026-03-31
搜集汇总
数据集介绍
main_image_url
构建方式
ELT-Bench-Verified 的构建源于对原始 ELT-Bench 基准的系统性质控与修正。研究团队开发了一套名为“审计-校正器”的两阶段框架,首先通过结合大型语言模型驱动的根因分析与严格的人工验证(标注者间一致性 Fleiss' κ = 0.85),对基准中失败的任务进行系统性审计。该过程识别出大量可归因于基准本身的质量问题,例如过于僵化的评估脚本、模糊的任务规范以及错误的基准真值。基于这些发现,校正器阶段实施了针对性的修正:对评估脚本进行细化以处理表征等价性,并移除了那些无法从任何合理查询中推导出基准真值的不可靠数据列。最终,通过这一严谨的、以证据为导向的流程,构建出了经过验证的、质量更高的修订版基准。
使用方法
ELT-Bench-Verified 主要用于评估AI智能体在构建完整ELT数据管道方面的能力。研究人员或开发者可以使用该基准,通过运行智能体框架(如SWE-Agent)来执行数据集中的任务。每个任务要求智能体根据提供的初始代码库、连接配置和目标数据模型规范,自动化地完成从异构数据源提取数据、加载到云数据仓库(如Snowflake)以及使用SQL(如dbt模型)进行数据转换的全流程。评估时,分别计算数据提取与加载的成功率(SRDEL)和数据转换的成功率(SRDT)。通过将智能体的输出与数据集提供的经过修正的基准真值进行比较,可以更可靠地衡量智能体在复杂、多步骤数据工程任务上的实际性能,避免因基准自身缺陷而低估其能力。
背景与挑战
背景概述
ELT-Bench-Verified 是数据工程领域一个经过系统性质量审计与修正的基准数据集,旨在为评估人工智能代理在端到端提取-加载-转换(ELT)流水线构建任务上的能力提供更可靠的衡量标准。该数据集由 IBM Research、苏黎世联邦理工学院和伊利诺伊大学厄巴纳-香槟分校的研究团队于2026年共同创建,核心研究问题聚焦于如何准确评估AI代理在复杂、多步骤数据集成工作流中的自动化能力。其前身ELT-Bench作为首个针对全流程ELT流水线构建的基准,揭示了原始评估因模型能力快速演进与基准自身质量缺陷而严重低估了代理的实际性能。ELT-Bench-Verified的发布标志着数据工程基准评估向系统化质量管控迈出了关键一步,对推动AI驱动数据工程自动化的发展具有重要的规范与指导意义。
当前挑战
该数据集所应对的核心领域挑战在于准确评估AI代理在构建现代数据集成核心——ELT流水线时的综合能力,这涉及从异构数据源提取、加载到云数据仓库,并编写复杂SQL转换模型的多阶段复杂任务。在构建过程中,研究团队面临双重挑战:一是基准质量缺陷的普遍存在,包括评估脚本过于僵化、任务描述存在歧义以及部分标注答案本身存在计算错误,这些缺陷导致大量正确的代理输出被误判为失败;二是实施系统性审计与修正的方法学挑战,需要开发可扩展的、结合大语言模型驱动根因分析与严格人工验证的审计框架,以在数百个失败任务中精准识别并区分代理错误与基准错误,并确保修正后的基准不引入新的偏差,从而为社区提供一个坚实、可信的评估基础。
常用场景
经典使用场景
在数据工程领域,构建端到端的提取-加载-转换(ELT)管道是实现数据集成自动化的核心挑战。ELT-Bench-Verified作为首个专门评估AI智能体在完整ELT管道构建能力的基准测试,其经典使用场景聚焦于衡量智能体从异构数据源(如数据库、API、平面文件)中提取数据、将其加载至云数据仓库(如Snowflake),并利用SQL模型(如dbt)进行原地转换的综合能力。该场景通过模拟真实数据工程任务,为研究者提供了评估智能体在复杂、多步骤工作流中表现的标准框架。
解决学术问题
ELT-Bench-Verified主要解决了数据工程自动化评估中存在的基准测试质量问题。传统评估常因标注错误、模糊的任务规范或僵化的评估脚本而低估AI智能体的真实能力。该数据集通过系统化的审计-校正方法,识别并修正了原始基准中大量可归因于基准本身的错误,例如语义等效输出因格式差异被误判、地面真值无法从规范中合理推导等问题。其意义在于为社区提供了更可靠的评估基础,揭示了基准质量缺陷是跨数据工程评估的系统性问题,推动了在复杂智能体任务评估中建立系统性质量审计标准。
实际应用
在实际应用中,ELT-Bench-Verified为开发AI驱动的数据工程自动化工具提供了关键验证平台。企业可利用该基准测试其智能体系统在构建真实数据管道时的效能,例如自动配置Airbyte连接器、生成Terraform定义、编写dbt转换模型等。修正后的基准确保了评估结果更能反映智能体在现实场景中的实用潜力,指导工程团队优化智能体在SQL逻辑构建、连接类型选择和数据感知查询生成等方面的能力,从而加速从手动、劳动密集型的管道开发向自动化工作流的转型。
数据集最近研究
最新研究方向
在数据工程自动化领域,ELT-Bench-Verified的发布标志着对AI智能体评估范式的深刻反思。该研究揭示,原始基准测试中高达82.7%的失败任务包含可归因于基准设计缺陷的误差,包括僵化的评估脚本、模糊的任务规范和错误的基准真值。通过引入“审计-校正”框架,结合大规模语言模型驱动的根因分析与严格人工验证,研究构建了经过系统性质量审计的修订版本。这一工作不仅将转换阶段的成功率从22.66%提升至32.51%,更凸显了基准测试质量问题的普遍性,呼应了文本到SQL领域近期关于标注错误的广泛观察。ELT-Bench-Verified的推出为社区提供了更可靠的评估基础,推动了AI驱动数据工程自动化研究的严谨化发展,并倡导系统性质量审计应成为复杂多步骤智能体任务评估的标准实践。
相关研究论文
  • 1
    ELT-Bench-Verified: Benchmark Quality Issues Underestimate AI Agent CapabilitiesIBM研究院; 苏黎世联邦理工学院; 伊利诺伊大学·厄巴纳-香槟分校 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作