AutoDCWorkflow Benchmark
收藏arXiv2024-12-10 更新2024-12-11 收录
下载链接:
http://arxiv.org/abs/2412.06724v1
下载链接
链接失效反馈官方服务:
资源简介:
AutoDCWorkflow Benchmark是一个用于评估大型语言模型(LLM)自动生成数据清洗工作流能力的基准数据集。该数据集包含四个真实世界的数据集,分别是Menu、Dish、Paycheck Protection Program (PPP) loan data和Chicago Food Inspection data,每个数据集被注入了不同类型的数据错误,并准备了20到30个数据清洗目的。数据集的创建过程基于不同的表格内容和列模式,生成了67个实例级别的目的,这些目的根据相关列的数量和数据的“脏度”状态分为不同的难度级别。该数据集主要用于测试LLM在自动生成数据清洗工作流方面的表现,旨在解决数据清洗任务中的自动化问题。
AutoDCWorkflow Benchmark is a benchmark dataset for evaluating the capability of Large Language Models (LLMs) to automatically generate data cleaning workflows. This dataset includes four real-world datasets, namely Menu, Dish, Paycheck Protection Program (PPP) loan data, and Chicago Food Inspection data. Each dataset is injected with distinct types of data errors, and 20 to 30 data cleaning objectives are prepared for each. The dataset construction process generates 67 instance-level objectives based on diverse table contents and column schemas, which are categorized into different difficulty levels according to the number of relevant columns and the dirtiness status of the data. This dataset is primarily used to test the performance of LLMs when automatically generating data cleaning workflows, with the goal of addressing automation issues in data cleaning tasks.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2024-12-10
搜集汇总
数据集介绍

构建方式
AutoDCWorkflow Benchmark数据集通过整合多个开放平台的数据构建而成,涵盖了社会科学、健康与公共服务、金融等多个领域。具体而言,数据集包括Menu、Chicago Food Inspection (CFI)、Paycheck Protection Program (PPP)和Dish四个真实世界的数据集。每个数据集经过精心处理,引入了不同类型的数据错误,如重复值、缺失值和不一致的数据格式,以确保数据清洗的必要性和多样性。此外,数据集还包含了20到30个数据清洗目的,这些目的以问题形式呈现,要求对数据进行特定的操作以达到清洗效果。
特点
AutoDCWorkflow Benchmark数据集的显著特点在于其多样性和复杂性。数据集不仅包含了多个领域的真实数据,还通过引入多种数据错误,模拟了实际数据清洗任务中的常见问题。此外,数据集中的每个目的都经过精心设计,涵盖了不同难度级别的数据清洗任务,从简单的列选择到复杂的语义修复。这种设计使得数据集能够全面评估大语言模型在自动生成数据清洗工作流中的表现。
使用方法
AutoDCWorkflow Benchmark数据集主要用于评估大语言模型在自动生成数据清洗工作流中的能力。使用该数据集时,用户可以输入一个包含数据错误的原始表格和一个明确的数据分析目的,模型将自动生成一系列数据清洗操作,并输出一个清洗后的表格。评估维度包括目的答案维度、列值维度和工作流维度,分别评估模型生成的清洗表格是否能正确回答目的、清洗后的表格与人工清洗表格的相似度,以及生成的清洗操作是否正确和完整。
背景与挑战
背景概述
AutoDCWorkflow Benchmark 数据集由伊利诺伊大学厄巴纳-香槟分校的 Lan Li、Liri Fang 和 Vetle I. Torvik 等人创建,旨在评估大型语言模型(LLMs)在自动生成数据清洗工作流中的推理能力。该数据集的核心研究问题是如何利用 LLMs 自动生成针对不同数据质量问题的数据清洗工作流,包括处理重复数据、缺失值和不一致的数据格式。AutoDCWorkflow 数据集的提出填补了现有数据清洗领域中缺乏自动化工作流生成评估基准的空白,并对数据清洗领域的自动化和智能化发展产生了重要影响。
当前挑战
AutoDCWorkflow Benchmark 数据集面临的挑战主要集中在两个方面:首先,数据清洗任务的复杂性要求 LLMs 能够识别并处理多种数据质量问题,如重复数据、缺失值和不一致的数据格式,这对模型的推理能力和操作生成能力提出了高要求。其次,构建数据集过程中,研究人员需要为每个数据集注入不同类型的数据错误,并设计多样化的数据清洗目的,以确保数据清洗工作流的多样性和难度层次,这增加了数据集构建的复杂性和工作量。此外,评估 LLMs 生成的数据清洗工作流的有效性也是一个挑战,需要从目的答案、列值和操作维度进行多维度的评估。
常用场景
经典使用场景
AutoDCWorkflow Benchmark 数据集的经典使用场景主要集中在自动化数据清洗工作流的生成与评估。该数据集通过提供包含不同数据质量问题的原始表格、目标分析目的、以及相应的清洗工作流,评估大型语言模型(LLMs)在生成数据清洗操作序列方面的能力。具体而言,数据集通过模拟真实世界中的数据清洗任务,测试 LLMs 在处理重复数据、缺失值和数据格式不一致等问题时的表现,从而验证其在自动化数据清洗中的有效性。
实际应用
AutoDCWorkflow Benchmark 数据集在实际应用中具有广泛的应用场景。例如,在数据科学和数据工程领域,该数据集可以用于训练和评估自动化数据清洗工具,帮助企业减少数据清洗的时间和成本。此外,在医疗、金融、社交网络等数据密集型行业中,该数据集可以用于验证和优化数据清洗流程,确保数据的准确性和一致性,从而为下游分析任务提供高质量的数据支持。
衍生相关工作
AutoDCWorkflow Benchmark 数据集的提出催生了一系列相关的经典工作。例如,基于该数据集的研究进一步探索了 LLMs 在数据清洗中的推理能力,并提出了多种优化策略,如通过提示工程改进数据清洗操作的生成。此外,该数据集还启发了其他研究者开发新的自动化数据清洗工具,如基于检索增强生成(Retrieval-Augmented Generation)的清洗方法,以及结合数据依赖关系的自动化清洗框架。这些工作共同推动了自动化数据清洗领域的技术进步。
以上内容由遇见数据集搜集并总结生成



