WDC Products
收藏arXiv2023-06-30 更新2024-06-21 收录
下载链接:
http://webdatacommons.org/largescaleproductcorpus/wdc-products/
下载链接
链接失效反馈官方服务:
资源简介:
WDC Products数据集由德国曼海姆大学的数据与网络科学组创建,包含11,715个产品描述,涵盖2,162个不同产品。该数据集通过从3,259个电子商务网站提取schema.org标记的产品数据构建,旨在为实体匹配任务提供多维度的评估基准。数据集设计了多个维度,包括角案例的数量、测试集中未见实体的比例以及开发集的大小,以系统评估匹配系统的性能。WDC Products不仅支持传统的成对匹配任务,还支持多类别匹配任务,确保两种设置之间的可比性,为实体匹配系统的精细评估提供了平台。
The WDC Products dataset was created by the Data and Web Science Group at the University of Mannheim, Germany. It contains 11,715 product descriptions covering 2,162 distinct products. The dataset is constructed by extracting schema.org-annotated product data from 3,259 e-commerce websites, aiming to provide a multi-dimensional evaluation benchmark for entity matching tasks. It is designed with multiple dimensions, including the number of corner cases, the proportion of unseen entities in the test set, and the size of the development set, to systematically evaluate the performance of matching systems. WDC Products not only supports traditional pairwise matching tasks but also multi-class matching tasks, ensuring comparability between the two settings, and provides a platform for fine-grained evaluation of entity matching systems.
提供机构:
曼海姆大学
创建时间:
2023-01-24
搜集汇总
数据集介绍

构建方式
在实体匹配研究领域,构建能够系统评估匹配系统多维性能的基准数据集至关重要。WDC Products数据集通过六步流程构建:首先从Common Crawl中提取使用schema.org标注的产品供应信息;随后对产品簇进行清洗,包括语言识别、去重和异常值移除;接着通过DBSCAN聚类将相似产品分组;然后根据角点案例比例、未见实体比例和开发集规模三个维度,从清洗后的语料中选取多组500个产品簇;之后将每个产品簇中的供应信息分割为训练、验证和测试集,并严格控制信息泄露;最后,为成对匹配任务生成正负样本对,并为多类匹配任务准备相应的数据格式。
特点
该数据集的核心特征体现在其多维设计上。首先,它系统性地涵盖了角点案例比例、未见实体比例和开发集规模三个评估维度,形成了27种变体,支持对匹配系统进行细粒度评估。其次,WDC Products是首个同时提供成对匹配和多元分类两种任务表述的基准,确保了两种设置间的可比性。数据集基于来自3,259个电子商务网站的真实产品数据,包含11,715条产品供应记录,涉及2,162个产品实体,具有较高的异构性和现实代表性。此外,数据严格分割,确保每条记录仅出现在一个数据子集中,有效防止了信息泄露。
使用方法
研究人员可利用该数据集对实体匹配系统进行多维性能评估。针对成对匹配任务,用户可选择不同角点案例比例、未见实体比例和开发集规模的组合变体进行训练和测试,以分析系统在特定挑战下的鲁棒性和数据效率。对于多元分类任务,数据集提供了相应的格式,适用于需要识别已知产品集合的应用场景。评估时,可比较系统在“完全可见”、“部分可见”和“完全不可见”实体测试集上的性能差异,从而衡量其泛化能力。同时,通过在不同开发集规模变体上的实验,可以考察模型的数据利用效率。该数据集已用于评估Ditto、HierGAT和R-SupCon等先进匹配系统,验证了其评估效用。
背景与挑战
背景概述
实体匹配作为数据集成领域的核心任务,旨在识别不同数据源中指向同一现实世界实体的记录。随着深度学习技术的兴起,尤其是Transformer架构的广泛应用,实体匹配系统的性能评估亟需更具挑战性和系统性的基准数据集。在此背景下,曼海姆大学数据与网络科学小组于2023年发布了WDC Products基准数据集。该数据集基于2020年从3,259个电子商务网站提取的真实产品数据构建,包含11,715条产品描述,覆盖2,162个产品实体。其核心创新在于首次系统性地整合了三个评估维度:边界案例数量、对未见实体的泛化能力以及开发集规模,从而为实体匹配系统提供了多角度、细粒度的性能评估框架。
当前挑战
WDC Products数据集旨在应对实体匹配领域的两大核心挑战。在领域问题层面,传统基准通常仅评估单一维度或提供静态难度,难以全面衡量匹配系统在复杂现实场景下的鲁棒性。该数据集通过引入对未见实体的泛化评估,直接针对匹配系统在动态环境(如电商新品上架)中的适应性缺陷。在构建过程层面,挑战主要源于多维度协同实现的技术复杂性。为确保边界案例的多样性和代表性,需采用多种相似性度量进行交替选择,避免算法偏见。同时,严格分割训练集与测试集以防止信息泄露,并为未见实体维度构建独立的产品池,这些步骤均需精细的数据工程设计和大量人工标注验证,以保障数据质量与评估的严谨性。
常用场景
经典使用场景
在电子商务数据集成领域,WDC Products数据集为实体匹配算法的系统性评估提供了多维度的基准框架。该数据集通过精心设计的27种变体,支持研究者沿着三个核心维度——角案例比例、未见实体的泛化能力以及开发集规模——对匹配系统进行精细化测评。其经典使用场景体现在能够模拟真实电商环境中产品描述的异构性,例如不同供应商对同一产品采用差异化的特征表述或计量单位,从而评估算法在复杂文本相似性判断上的鲁棒性。
解决学术问题
WDC Products数据集针对实体匹配研究中长期存在的若干瓶颈问题提供了系统化解决方案。它首次在英语基准中实现了对未见实体泛化能力的量化评估,揭示了现有先进模型在分布外数据上性能显著下降的普遍现象。该数据集通过控制角案例比例,解决了传统基准难以衡量算法对边界样本判别能力的问题;同时,其多开发集规模设计为研究训练数据效率提供了标准化的实验环境。这些特性使得研究者能够深入探究匹配算法在数据稀疏、概念漂移等现实挑战下的表现。
衍生相关工作
WDC Products数据集的发布催生了实体匹配领域多个方向的研究进展。基于其多维评估框架,研究者开发了针对角案例优化的对比学习策略,如R-SupCon模型在该数据集上展现出卓越的训练数据效率。该数据集启发了对Transformer架构泛化能力的系统性分析,相关研究揭示了预训练语言模型在未见实体识别中的固有局限。同时,其多类别匹配任务推动了将实体匹配重构为分类问题的研究范式,促进了匹配算法在商品识别、库存管理等垂直场景中的应用创新。
以上内容由遇见数据集搜集并总结生成



