ELT-Bench

Name: ELT-Bench
Creator: 伊利诺伊大学厄巴纳-香槟分校
Published: 2025-04-07 16:03:36
License: 暂无描述

arXiv2025-04-07 更新2025-04-09 收录

下载链接：

https://github.com/uiuc-kang-lab/ETL.git

下载链接

链接失效反馈

官方服务：

资源简介：

ELT-Bench是由伊利诺伊大学厄巴纳-香槟分校创建的一个端到端数据集，包含100个ELT管道，涉及835个源表和203个数据模型，覆盖了多个领域。该数据集模拟了涉及多种数据源集成和流行数据工具使用的真实场景，评估AI代理在处理复杂数据工程工作流方面的能力。

ELT-Bench is an end-to-end dataset created by the University of Illinois Urbana-Champaign, which contains 100 ELT pipelines, involves 835 source tables and 203 data models, and covers multiple domains. This dataset simulates real-world scenarios involving integration of diverse data sources and utilization of popular data tools, and evaluates the capabilities of AI Agents in handling complex data engineering workflows.

提供机构：

伊利诺伊大学厄巴纳-香槟分校

创建时间：

2025-04-07

搜集汇总

数据集介绍

构建方式

ELT-Bench数据集的构建过程体现了严谨的工程化方法论，研究团队通过多阶段标注流程确保了数据质量。首先从Bird和Fivetran等权威数据源筛选835张源表和203个数据模型，覆盖API、云服务、关系型数据库等五类数据源。采用Docker容器技术模拟真实数据环境，通过Terraform代码实现Airbyte配置，并人工验证每个ELT管道的正确性。特别值得注意的是，每个管道的构建平均消耗3-5小时人工标注，涉及187行配置代码和200个SQL标记，最终形成包含100个完整管道的基准测试集。

特点

该数据集的核心价值在于其端到端的评估维度和真实场景还原能力。ELT-Bench首创性地整合了数据提取加载（EL）与转换（T）全流程评估，其中60%的管道需要整合5类异构数据源，28个管道要求生成3个以上数据模型。技术特征上，73%的SQL查询复杂度超过200个标记，包含嵌套子查询、多表连接等高级操作。数据集还模拟了实际工程痛点，如24个任务需要处理多平面文件的特殊配置，30个任务涉及200行以上的Terraform代码，这种设计使评估结果具有显著的工业参考价值。

使用方法

使用ELT-Bench需遵循标准化评估协议。研究者首先配置包含Snowflake数据仓库、Airbyte和DBT工具的沙箱环境，向AI智能体提供config.yaml连接文件、data_model.yaml目标定义及文档说明。评估分为两个阶段：第一阶段测试数据提取加载能力，通过SELECT COUNT(*)验证数据完整性；第二阶段评估SQL转换准确性，采用有序查询结果比对机制。基准测试提供SRDEL（数据提取加载成功率）和SRDT（数据转换成功率）双指标，并记录平均成本（如Spider-Agent Claude-3.7-Sonnet单管道成本4.3美元）和执行步数（平均89.3步）等效能参数。

背景与挑战

背景概述

ELT-Bench是由伊利诺伊大学厄巴纳-香槟分校的研究团队于2025年提出的端到端评估基准，旨在解决人工智能代理在构建提取-加载-转换（ELT）管道方面的能力评估问题。随着云数据仓库的广泛应用，ELT管道已成为数据处理的主流方法，但其设计过程仍高度依赖人工操作以确保正确性。ELT-Bench通过模拟真实场景，包含100个管道、835个源表和203个数据模型，覆盖多种领域，为评估AI代理在复杂数据工程工作流中的表现提供了全面平台。该数据集的推出填补了现有基准仅评估孤立任务的空白，对推动数据工程自动化具有重要意义。

当前挑战

ELT-Bench面临的核心挑战体现在两个方面：领域问题方面，现有AI代理在生成端到端ELT管道时表现欠佳，最优代理Spider-Agent Claude-3.7-Sonnet仅能正确生成3.9%的数据模型，且平均每个管道需消耗4.30美元和89.3个步骤；构建过程方面，数据源多样性（包括API、云服务、关系型数据库等五种类型）、复杂的数据转换需求（73%管道需200+SQL标记）以及环境配置的复杂性（每个管道需3-5小时人工标注）为基准建设带来显著挑战。此外，确保管道各阶段的可复现性和正确性验证也需耗费大量人工努力。

常用场景

经典使用场景

ELT-Bench作为首个端到端评估AI代理构建ELT（提取-加载-转换）管道能力的基准，其经典使用场景聚焦于模拟真实数据工程工作流。该数据集通过整合835个源表和203个跨领域数据模型，要求代理在多源异构数据（如API、云服务、关系型数据库等）环境下完成从数据提取、加载到复杂SQL转换的全流程任务。典型场景包括代理与Snowflake数据仓库交互、编写Airbyte Terraform配置代码、生成符合业务逻辑的数据模型等，全面测试代理在工具使用、代码生成和流程编排方面的能力。

衍生相关工作

该数据集已衍生出多项重要研究工作：1) Spider-Agent框架扩展了数据库交互模块以支持ELT多阶段验证；2) SWE-Agent在此基础上优化了文档学习机制，解决60%管道需配置5类数据源的挑战；3) 针对基准揭示的代理缺陷，后续研究提出了增强型思维链（Extended Thinking）方法，将数据加载阶段成功率提升至57%。相关成果还推动了Bird、Spider等文本到SQL基准的演进，形成覆盖数据工程全栈任务的评估体系。

数据集最近研究