MaDI-Bench

Name: MaDI-Bench
Creator: 曼海姆大学·数据与网络科学组
Published: 2026-06-29 22:34:22
License: 暂无描述

arXiv2026-06-29 更新2026-07-01 收录

下载链接：

https://github.com/wbsg-uni-mannheim/MaDI-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MaDI-Bench是由曼海姆大学研究团队构建的首个端到端关系数据集成基准测试集，旨在全面评估数据集成系统的整体性能。该基准包含跨越游戏、公司、音乐、产品和科学论文五大应用领域的20个集成任务，总计涉及超过93,000条标记记录对、1,000条人工验证的融合记录以及近11,000个验证属性值，数据来源于DBpedia、Metacritic、Forbes、Discogs等多个异构公开数据集。其创建过程通过精心设计基础任务和变体生成方法，模拟了从模式匹配、值规范化、实体匹配到数据融合的完整流程，并提供了人工验证的黄金标准。该数据集主要应用于推动数据集成方法的研究与评估，特别是为解决实际应用中端到端集成流程的耦合性与误差传播问题提供标准化测试平台。

MaDI-Bench is the first end-to-end relational data integration benchmark constructed by the research team from the University of Mannheim, aiming to comprehensively evaluate the overall performance of data integration systems. This benchmark includes 20 integration tasks spanning five application domains: games, companies, music, products, and scientific papers, involving a total of over 93,000 labeled record pairs, 1,000 manually validated fused records, and nearly 11,000 validated attribute values. The data is sourced from multiple heterogeneous public datasets such as DBpedia, Metacritic, Forbes, and Discogs. Its development process simulates the complete workflow from schema matching, value normalization, entity matching to data fusion through carefully designed basic tasks and variant generation methods, and provides manually validated gold standards. This dataset is primarily used to promote research and evaluation of data integration methods, especially providing a standardized testing platform for addressing the coupling and error propagation issues in end-to-end integration workflows in practical applications.

提供机构：

曼海姆大学·数据与网络科学组

创建时间：

2026-06-29

原始信息汇总

数据集概述：MaDI-Bench

MaDI-Bench（曼海姆数据集成基准）是首个用于评估关系型表格端到端完整集成的公共基准。该基准由德国曼海姆大学数据与网络科学组（Data and Web Science Group, University of Mannheim）的Aaron Steiner、Ralph Peeters和Christian Bizer共同提出，涵盖数据集成管线的所有步骤：模式匹配 → 值归一化 → 实体分块 → 实体匹配 → 数据融合。

数据总量：包含20个集成任务，跨越5个领域（游戏、公司、音乐、产品和科学论文）。每个领域包含一个基础任务以及轻松、中等、困难三个难度变体。
标注数据规模：
- 超过93,000个标注的记录对用于实体匹配。
- 超过1,000条人工验证的融合记录，携带近11,000个人工验证的属性值。
- 每个任务包含一个黄金模式映射（gold schema mapping）。
数据格式：所有工件以通用格式（CSV、JSON、XML）发布。

任务与难度变体

每个任务要求将多个异构源表整合为单个输出表，输出表需符合给定的目标模式，且每个真实世界实体仅保留一条记录。基准通过8个可控制的难度旋钮（difficulty knobs）生成任务变体，以缓解基准随着系统进步而快速饱和的问题：

轻松变体：保持简单、低成本方法的竞争力。
困难变体：为系统进步保留发展空间，确保持续可用。

数据集结构与内容

核心目录（`use cases/`）

每个领域和难度级别下包含以下子目录：

input/：任务输入。
- data/：源表（CSV）及每个源的schema.org元数据文件（JSON）。
- schemamatching/：目标模式（JSON Schema，含值约束）、黄金模式映射、分类法CSV。
- entitymatching/：标注的对分裂：<srcA>_2_<srcB>_{train,val,test}.csv。
- fusion/：标注的融合记录及可读性视图CSV。
config/：变体的难度配置文件（仅变体任务）。
output/：人工管线的参考输出（包含指标、模式匹配、分块评估、聚类分析、数据融合、数据集画像和日志）。
基础任务额外包含一个<domain>_workflow.ipynb笔记本，展示端到端集成流程。

验证运行结果（`results/`）

包含两个自动化参考管线的输出，按领域和难度级别组织：

best of breeds/：最佳品种管线（P2）的输出，包含融合输出表、预测对应关系、各阶段分数及端到端面板。
llm pipeline/：基于LLM的管线（P3）的输出，包含管线指标、端到端报告及各步骤结果。

人工管线（P1）的参考输出作为每个任务的output/目录存储于use cases/下。

验证与参考管线

基准使用三种参考管线进行验证：

人工管线（P1）：作为银标准，提供参考输出。
最佳品种管线（P2）：在每个步骤运行一组竞争方法，在验证集上评分并链接每步优胜者。
基于LLM的管线（P3）：使用LLM配置每个集成步骤。

这些管线基于**PyDI - 数据集成框架**构建，该框架提供备选集成方法和针对数据集成管线每个步骤的专门评估器类。

相关资源

论文：https://arxiv.org/abs/2606.30371
官方网站：https://wbsg-uni-mannheim.github.io/MaDI-Bench/
引用： bibtex @misc{steiner2026madibench, title = {MaDI-Bench: An End-to-End Data Integration Benchmark}, author = {Steiner, Aaron and Peeters, Ralph and Bizer, Christian}, year = {2026}, eprint = {2606.30371}, archivePrefix = {arXiv}, primaryClass = {cs.DB}, url = {https://arxiv.org/abs/2606.30371} }

搜集汇总

数据集介绍

构建方式

MaDI-Bench的构建以现实世界中数据整合的复杂性为出发点，覆盖了关系型表格整合的所有关键环节。数据集选取了游戏、公司、音乐、产品和科学论文五个领域的真实数据源，针对每个任务都提供了源表、元数据描述、目标模式、属性对应关系（gold schema mapping）、实体匹配训练/验证/测试集以及融合验证/测试集。其中，实体匹配集聚焦于决策边界附近的困难案例，融合集则通过人工验证确保准确性。为了应对基准测试可能快速饱和的问题，研究者还设计了变体生成方法，通过注入值噪声、格式多样化、列名模糊化等八种可控扰动，为每个基础任务衍生出简单、中等和困难三种难度变体，从而持续评估系统性能。

特点

MaDI-Bench的核心特点在于其端到端覆盖性，它要求系统依次完成模式匹配、值标准化、实体分块、实体匹配与数据融合，并显式考虑了上下游任务间的错误传播效应。基准提供了超过93,000个标签化的实体配对、接近10,000个人工验证的融合属性值以及精确的模式对应关系，并引入了一个包含三大质量维度（覆盖度、一致性与正确性）和三种参考级别（无参考、银标准、真实值）的评估体系。此外，20个不同难度的整合任务（5个基础任务与15个变体任务）允许研究者从多个角度评测方法的有效性与效率。

使用方法

使用时，研究者首先在给定任务中选择相应难度等级，并获取源表与目标模式作为输入。系统需要输出一个符合目标模式的单一融合表，并在可选任务中返回中间结果如属性映射与匹配记录对。评估时，可以分别度量各步骤的性能（如模式匹配F1、实体匹配F1、融合准确率），或计算端到端结构性指标如实体增益、密度增益与输出密度。研究人员可根据需要选用基础任务的标注数据（如训练集）进行模型调优，然后利用验证集与测试集计算最终表现。基准的代码与数据均在开源仓库中提供，便于复现。

背景与挑战

背景概述

数据集成旨在将多个异构数据源融合为统一且连贯的表达，涉及模式匹配、值规范化、实体匹配与数据融合等相互依赖的步骤。然而，现有基准测试往往孤立评估各步骤或仅覆盖不完整的集成管道，阻碍了面向全过程的数据集成方法研究。为填补这一空白，曼海姆大学数据与万维网科学组的Aaron Steiner、Ralph Peeters与Christian Bizer于2026年提出了Mannheim数据集成基准（MaDI-Bench），这是首个端到端的关系表集成基准。MaDI-Bench横跨游戏、公司、音乐、产品与学术论文五个领域，整合了超过93,000对标注实体匹配、1,000条人工验证的融合记录及10,000个属性值，为评估集成系统的逐步与端到端性能提供了全面而严谨的测试平台，对推动自动化和人机协同数据集成技术发展具有重要影响力。

当前挑战

MaDI-Bench所解决的核心领域挑战在于：数据集成各步骤紧密耦合，孤立评估无法反映全局性能，且随着大模型与智能体系统进步，亟需能测量全过程质量与效率的基准。构建过程中面临的挑战包括：1）设计跨领域、难度可调的真实集成任务，确保任务能对模式命名异质性、值噪声、格式多样性及源可靠性差异等现实难题进行系统评测；2）衍生任务变体时需在不破坏底层匹配关系的前提下，通过注入拼写错误、列名混淆、单元格式变换等扰动，控制从易到难的难度梯度，同时保护融合验证集与测试集的完整性；3）建立涵盖覆盖率、一致性、正确性的多维度端到端度量体系，并支持无参考、银标准与真实标准三种评价层次，以全面揭示管道各环节的误差传播与系统优劣。

常用场景

经典使用场景

MaDI-Bench数据集最经典的使用场景在于系统性评估端到端数据集成管线的整体性能。在异构关系表的整合过程中，该方法要求同时执行模式匹配、数值归一化、实体分块、实体匹配与数据融合等相互依赖的步骤。通过提供涵盖游戏、公司、音乐、产品和学术论文五个应用领域的基准任务，研究者得以在受控且有金标准标签的环境中，全面评测集成系统在各个子任务上的表现以及端到端的输出质量。

衍生相关工作

基于MaDI-Bench数据集，研究者已衍生出一系列极具影响力的经典工作。例如，该基准被用于比较人工精心设计的PyDI管线、集成多种文献最优组件的最佳组合管线以及完全由大语言模型驱动的自动化集成管线。后续工作更在此基础上探索基于LLM的代理系统如何自主完成模式映射、冲突消解等子任务，并催生了面向大规模数据集的变体生成方法，使得数据集在集成技术迅猛演进的背景下仍能保有足够的区分度与挑战性。

数据集最近研究