five

TableEG

收藏
arXiv2025-07-15 更新2025-07-17 收录
下载链接:
https://github.com/viviancircle/TableEG
下载链接
链接失效反馈
官方服务:
资源简介:
TableEG是一个基于大型语言模型(LLM)的数据清洗技术实用基准测试框架,旨在生成真实的错误。该框架利用表格微调策略和三元组表示(𝐴?,𝐴?,𝐴?)来模拟错误生成、检测和校正任务,以捕获二维表格中的复杂依赖关系。TableEG在跨越10个不同领域的12个现实世界数据集上进行了训练,确保合成的错误真实地反映了真实的错误分布。实验结果表明,TableEG生成的错误与基于规则的方法以及未进行微调的LLM生成的错误相比,具有更优越的模式和分布相似性。此外,在几乎所有数据集和检测算法上,TableEG生成的错误的性能指标与真实世界错误上的性能指标密切相关,特别是对于基于机器学习的检测技术。总体而言,TableEG不仅弥合了合成错误与现实世界错误之间的差距,而且还为后续的错误检测和校正任务建立了一个强大的基准。

TableEG is a practical benchmark framework for data cleaning techniques based on Large Language Models (LLMs), aiming to generate realistic errors. This framework leverages table fine-tuning strategies and triple representation (A₁, A₂, A₃) to simulate error generation, detection and correction tasks, so as to capture the complex dependencies within two-dimensional tables. TableEG is trained on 12 real-world datasets spanning 10 distinct domains, ensuring that the synthesized errors authentically reflect the distribution of real-world errors. Experimental results show that compared with errors generated by rule-based methods and non-fine-tuned LLMs, the errors produced by TableEG exhibit superior similarity in both patterns and distributions. Furthermore, across nearly all datasets and detection algorithms, the performance metrics obtained using errors generated by TableEG are highly correlated with those achieved on real-world errors, particularly for machine learning-based detection techniques. Overall, TableEG not only bridges the gap between synthesized errors and real-world errors, but also establishes a robust benchmark for subsequent error detection and correction tasks.
提供机构:
南开大学, 哈尔滨工业大学(深圳), 清华大学
创建时间:
2025-07-15
原始信息汇总

TableEG 数据集概述

📌 数据集简介

  • 名称:TableEG
  • 类型:表格数据错误生成与检测基准数据集
  • 领域:跨10个领域的12个真实世界数据集
  • 核心功能:通过大型语言模型(LLMs)生成逼真的表格数据错误

🏗 框架组成

  1. 源数据 (source/)

    • 包含12个真实世界数据集的干净版本(clean.csv)和错误注入版本(dirty.csv)
    • 每个数据集附带错误标注文件(*_annotation.jsonl)
  2. 处理数据 (dataset/)

    • 训练集(train/)和测试集(test/)
    • 采用指令-输入-输出三元组格式
  3. 评估数据 (evaluation/test_dataset/)

    • 包含不同评估设置下的测试数据(exp_1/)
    • 基线模型输出(BART_output/, GPT_output/)
    • TableEG模型输出(model_output/)

📊 数据集统计

数据集 行数 列数 领域 错误率 错误类型(M/P/R/O)
Rayyan 1,000 11 学术 8.62% M, P, R
Company 128,889 7 商业 34.21% P, R
Marketing 8,993 14 商业 21.29% M, P
Movie (Metadata) 7,390 17 娱乐 6.10% M, P
Credit 150,000 10 金融 2.33% M, O
Beers 2,410 11 食品 12.66% M, P, R
Hospital 1,000 20 健康 2.55% P, R
Airbnb 42,492 40 酒店 0.22% M, O

🔥 数据集特点

  • 真实性:错误分布和模式与真实世界错误高度一致
  • 多样性:涵盖10个不同领域
  • 完整性:提供干净版本、错误版本和标注文件
  • 可扩展性:支持自定义错误比例和类型分布

📂 数据来源

  • 主要来自CleanMLRaha项目
  • 包含学术、商业、娱乐、金融等多个领域数据

🛠 相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
TableEG数据集的构建采用了基于大型语言模型(LLMs)的指令微调方法,通过引入三元组表示(𝐴?,𝐴?,𝐴?)来模拟错误生成、检测和修正任务。具体步骤包括:首先从12个真实世界数据集中提取标注错误,构建训练样本;其次,通过指令微调和任务增强策略,提升模型对二维表格结构的理解能力;最后,利用配置化的错误比例和类型生成符合实际错误分布的合成数据。
使用方法
TableEG数据集的使用方法包括三个主要步骤:首先,用户提供干净的数据集和指定的错误比例及类型分布;其次,模型通过采样子表并生成指令,利用微调后的LLM进行错误注入;最后,用户可以通过评估指标(如错误模式对齐相似度得分和分布对齐度量)验证生成错误的真实性。该数据集适用于训练和评估数据清洗算法,特别是在错误检测和修正任务中。
背景与挑战
背景概述
TableEG是由南开大学、哈尔滨工业大学(深圳)和清华大学的研究团队于2025年提出的一个创新性数据集框架,旨在解决表格数据质量评估中真实错误样本匮乏的难题。该研究基于12个跨10个领域的真实数据集,通过大语言模型(LLMs)的指令微调技术,构建了能够模拟复杂二维表间依赖关系的错误生成系统。其核心突破在于采用三元组表示(𝐴?,𝐴?,𝐴?)统一建模错误生成、检测与修正任务,显著提升了合成错误在模式和分布维度上与真实错误的相似性,为数据清洗算法的基准测试提供了可靠的基础设施。
当前挑战
TableEG面临的挑战主要体现在两个维度:领域问题层面,传统规则方法(如BART)生成的错误受限于预定义模式,难以捕捉真实数据中复杂的语义不一致和缺失值分布;构建过程层面,LLMs对二维表结构的理解不足导致跨行列依赖处理困难,且需平衡错误类型的多样性(如异常值、规则违反)与分布真实性。实验表明,未经微调的LLMs会产生语义无意义的替换,而TableEG通过表结构感知的指令微调策略,将错误模式对齐相似度(EPA)提升至77.76%,较基准方法提高28个百分点。
常用场景
经典使用场景
TableEG数据集在数据清洗和错误检测领域具有广泛的应用价值,尤其在评估和优化数据清洗算法方面表现突出。该数据集通过大型语言模型(LLMs)生成真实的错误模式,能够模拟现实世界中的数据质量问题。研究人员可以利用TableEG生成的错误数据来测试和比较不同错误检测算法的性能,从而选择最优的解决方案。此外,TableEG还支持多种错误类型的生成,包括缺失值、异常值、规则违反和模式违反,为数据质量研究提供了全面的测试平台。
解决学术问题
TableEG数据集解决了数据清洗研究中缺乏多样化、真实错误数据的难题。传统的数据清洗评估通常依赖于人工标注或规则生成的错误数据,但这些方法往往无法覆盖复杂的真实错误模式。TableEG通过LLMs生成的错误数据不仅具有高度的真实性,还能反映不同领域和场景下的数据质量问题。该数据集为研究人员提供了一个可靠的基准,用于评估错误检测和修复技术的有效性,推动了数据清洗领域的学术进展。
实际应用
在实际应用中,TableEG数据集被广泛应用于金融、医疗、电子商务等领域的数据质量管理。例如,金融机构可以利用TableEG生成的错误数据来测试其交易系统的数据清洗能力,确保数据的准确性和一致性。医疗领域则可以通过TableEG评估电子健康记录(EHR)系统的错误检测性能,从而提高患者数据的安全性。此外,电子商务平台可以利用TableEG优化其商品数据清洗流程,提升用户体验和运营效率。
数据集最近研究
最新研究方向
在数据质量管理和数据清洗领域,TableEG数据集的最新研究方向聚焦于利用大型语言模型(LLMs)生成真实的表格数据错误。通过引入基于指令微调的方法和三元组表示(𝐴?,𝐴?,𝐴?),TableEG能够模拟现实世界中复杂的二维表格依赖关系,生成多样化的错误类型,包括异常值、缺失值、规则违反和模式违反。这一研究方向不仅填补了现有规则方法在错误生成多样性和真实性上的不足,还为数据清洗技术的评估提供了更可靠的基准。实验结果表明,TableEG生成的错误在模式和分布上与真实错误高度相似,显著优于传统规则方法和未经微调的LLMs。此外,TableEG生成的错误在多种错误检测算法上的性能表现与真实错误高度一致,进一步验证了其在实际应用中的价值。
相关研究论文
  • 1
    Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models南开大学, 哈尔滨工业大学(深圳), 清华大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作