新构建的多模态实体匹配语料库

Name: 新构建的多模态实体匹配语料库
Creator: 中国信息处理实验室
Published: 2022-05-12 13:50:30
License: 暂无描述

arXiv2022-05-12 更新2024-06-21 收录

下载链接：

https://github.com/tshu-w/ember

下载链接

链接失效反馈

官方服务：

资源简介：

新构建的多模态实体匹配语料库，由中国信息处理实验室创建，包含超过120,000条记录，涉及10,000种产品。每条记录包含高质量的图像属性，用于研究多模态信息在实体匹配中的应用。数据集旨在通过移除限制性实体、平衡标签和单模态记录的假设，重新构建实体匹配基准，以更真实地反映实体匹配在开放环境中的挑战。该数据集适用于评估模型在处理未知实体集群、不平衡标签和多模态记录的能力，特别关注于解决实体匹配在实际应用中的性能问题。

A newly constructed multimodal entity matching corpus, developed by the China Information Processing Laboratory, contains over 120,000 records spanning 10,000 distinct products. Each record includes high-quality image attributes, supporting research on the application of multimodal information in entity matching tasks. This corpus aims to reconstruct entity matching benchmarks by removing restrictive entities, balancing label distributions and relaxing the assumption of unimodal records, thereby more realistically reflecting the challenges of entity matching in open environments. This dataset is suitable for evaluating model capabilities in handling unknown entity clusters, imbalanced labels and multimodal records, with a particular focus on addressing performance issues of entity matching in real-world applications.

提供机构：

中国信息处理实验室

创建时间：

2022-05-12

搜集汇总

数据集介绍

构建方式

在实体匹配领域，现有基准常隐含不切实际的假设，导致评估结果与真实应用脱节。为弥合这一差距，本研究构建了一个新颖的多模态实体匹配语料库，其基础来源于中国大型电商平台，涵盖服装、鞋类和配饰三大品类。语料库包含约10万个产品实体和超过12万条记录，每条记录均包含高质量的图像属性及文本信息如标题、类别和属性对。构建过程中，通过逐步摒弃传统基准中的限制性实体、平衡标签和单模态假设，采用更贴近开放环境的采样策略，例如为训练集和测试集分别保留未见过的实体簇和记录，以模拟真实场景中的实体匹配挑战。

特点

该数据集的核心特点在于其高度贴近真实开放环境的设计理念。它突破了传统实体匹配基准的局限，引入了开放实体、不平衡标签和多模态记录三大关键维度。数据集中实体簇和记录在训练与测试集间存在显著差异，模拟了实际应用中常见的未见实体情况；标签分布呈现高度不平衡性，匹配与不匹配实例的比例可动态调整至1:100，以反映实体匹配任务中的长尾现象；此外，每条记录均整合了文本与视觉模态信息，为探索多模态融合在噪声环境下的决策价值提供了坚实基础。这些特点共同构成了一个更具挑战性和实用性的评估平台。

使用方法

该数据集旨在为实体匹配研究提供更可靠的评估基准，支持多种典型应用范式的探索。研究人员可依据开放匹配、簇聚焦匹配和记录链接等不同场景，利用其提供的训练、验证和测试划分进行模型训练与性能评估。使用时可重点考察模型在面临未见实体簇、高度不平衡标签分布以及多模态信息融合时的泛化能力与鲁棒性。数据集的代码与基准已公开释放，便于复现实验并推动针对开放环境实体匹配新方法的开发，从而更准确地衡量技术进展在实际应用中的价值。

背景与挑战

背景概述

实体匹配作为实体解析的核心环节，旨在判定两条记录是否指向同一现实世界实体。随着深度学习技术的蓬勃发展，该领域涌现出众多高效方法，并在标准基准测试中展现出卓越性能。然而，实际应用中的表现却常令人失望，凸显出基准测试与现实场景间的显著鸿沟。为深入探究此问题，中国科学院软件研究所与阿里巴巴集团的研究团队于2022年联合构建了名为“新构建的多模态实体匹配语料库”的数据集。该语料库源自大型中文电商平台，涵盖服装、鞋履及配饰三大品类，包含逾12万条记录，对应1万种商品实体，每条记录均附带高质量图像属性。研究团队旨在通过重构基准测试，系统性地揭示并挑战以往基准构建过程中隐含的三大假设——受限实体假设、均衡标签假设与单模态假设，从而推动实体匹配技术向开放环境下的实用化迈进。

当前挑战

该数据集致力于应对实体匹配领域的两大核心挑战。在领域问题层面，传统基准测试因隐含假设而无法准确评估模型在开放环境中的泛化能力，具体表现为：模型面对未见实体簇或记录时性能急剧下降；在高度不平衡的标签分布下（如匹配与不匹配比例达1:100），现有方法表现显著恶化；同时，单模态文本数据难以充分利用多模态信息（如图像）在噪声环境中的判别价值。在构建过程层面，研究团队需克服多重困难：首先，需从真实电商场景中采集并清洗大规模多模态数据，确保实体簇标注的准确性与一致性；其次，为模拟开放环境，必须设计新颖的数据划分策略，以区分可见簇、可见记录与不可见簇、不可见记录等多种测试场景；此外，还需构建合理的标签不平衡分布，以反映实体匹配在实际应用中的长尾特性。这些挑战共同促使该数据集成为评估实体匹配模型在现实复杂场景中鲁棒性的重要基准。

常用场景

经典使用场景

在实体匹配研究领域，该多模态语料库被广泛应用于评估深度学习模型在开放环境下的泛化能力。研究者利用其包含的开放实体、不平衡标签和多模态记录，模拟真实电商场景中的商品匹配任务，例如识别来自不同数据源的iPhone产品记录是否指向同一实体。该数据集通过构建开放匹配、聚类聚焦匹配和记录链接等典型范式，为模型提供了从受限理想条件到开放现实环境的过渡测试平台，成为推动实体匹配技术向实际应用迈进的关键基准。

衍生相关工作

该数据集的发布催生了一系列关注开放环境实体匹配的创新研究。例如，基于其构建的基准，学者们开发了针对不平衡学习的自适应采样策略、融合视觉与文本特征的跨模态匹配架构，以及面向未见实体泛化的元学习框架。这些工作不仅深化了对多模态信息协同机制的理解，还推动了如Ditto等预训练模型在开放场景中的改进。此外，该数据集启发了对基准构建方法论的系统性反思，促使后续研究在医疗数据匹配、学术文献消歧等领域建立更严谨的评估体系。

数据集最近研究