ImplicitAVE

Name: ImplicitAVE
Creator: 伊利诺伊大学芝加哥分校
Published: 2024-04-24 09:54:40
License: 暂无描述

arXiv2024-04-24 更新2024-06-21 收录

下载链接：

https://github.com/HenryPengZou/ImplicitAVE

下载链接

链接失效反馈

官方服务：

资源简介：

ImplicitAVE是首个公开的多模态数据集，专门用于隐式属性值提取，由伊利诺伊大学芝加哥分校创建。该数据集包含68,000个训练实例和1,600个测试实例，覆盖五个不同领域，旨在解决现有数据集在处理隐式属性值方面的不足。数据集通过精心策划，包括了产品图像和文本信息，以支持多模态学习。ImplicitAVE的应用领域包括电子商务中的产品表示、推荐和分类，特别是在需要从产品图像和文本中推断隐式属性值的场景中。

ImplicitAVE is the first publicly available multimodal dataset dedicated to implicit attribute value extraction, created by the University of Illinois Chicago. It contains 68,000 training instances and 1,600 test instances covering five distinct domains, and is designed to address the shortcomings of existing datasets in handling implicit attribute values. The dataset has been carefully curated to include both product images and textual information to support multimodal learning. Application scenarios of ImplicitAVE include product representation, recommendation and classification in e-commerce, particularly in cases where implicit attribute values need to be inferred from product images and text.

提供机构：

伊利诺伊大学芝加哥分校

创建时间：

2024-04-24

搜集汇总

数据集介绍

构建方式

在电子商务领域，属性值提取任务长期面临隐式属性值识别不足与多模态数据缺失的挑战。ImplicitAVE数据集的构建始于对MAVE数据集文本信息的筛选与重构，通过系统化流程实现数据优化与扩展。构建过程涵盖四个关键阶段：首先从MAVE中提取产品文本与属性标注，随后进行数据精炼，剔除推理不可行属性与主观性属性，合并语义相近的属性值。进而通过移除文本中的显式属性值提及，将数据转化为隐式属性值提取任务，并基于产品编号从亚马逊平台采集对应图像，引入多模态信息。最终通过两轮人工审查与重标注，确保测试集标注的高质量与可靠性，形成涵盖五个领域、包含68,604条训练样本与1,610条测试样本的标准化数据集。

特点

作为首个公开可用的多模态隐式属性值提取数据集，ImplicitAVE展现出多维度创新特性。其核心特征在于专注于隐式属性值的识别，这些值无法直接从文本中获取，需依赖图像信息或上下文线索进行推断，显著提升了任务的复杂性与现实适用性。数据集深度融合多模态数据，每一条目均包含产品文本与对应图像，为视觉-语言联合建模提供了坚实基础。数据覆盖范围广泛，涵盖服装、鞋类、珠宝配饰、食品及家居产品五大领域，包含25个精心筛选的属性与158个属性值，确保了任务的多样性与代表性。此外，数据集经过严格的人工审查与重标注流程，测试集标注准确率高达86.4%，为模型评估提供了可靠的高质量基准。

使用方法

ImplicitAVE数据集为多模态大语言模型在隐式属性值提取任务上的性能评估提供了标准化测试平台。使用该数据集时，研究者可基于其提供的训练集与测试集划分，开展全监督、少样本及零样本等多种学习范式的实验。数据集支持单模态与多模态输入模式的对比分析，用户可分别使用纯文本、纯图像或图文结合的数据进行模型训练与测试，以探究不同模态对隐式推理的贡献。在评估层面，数据集支持领域级与属性级两个维度的性能度量，通过微平均F1分数反映模型在不同产品领域及具体属性上的提取精度。研究者在进行基准测试时，需遵循数据集提供的提示模板构建输入，并将模型输出与人工标注的真实值进行比对，从而系统评估模型在复杂隐式推理任务上的能力与局限。

背景与挑战

背景概述

在电子商务领域，属性值提取（Attribute Value Extraction, AVE）是产品信息结构化、推荐系统及分类任务中的核心技术。现有数据集多聚焦于显式属性值，而忽略了需通过图像或上下文推断的隐式属性值，且普遍缺乏公开性、多模态数据及跨领域深度人工标注。为弥补这些不足，伊利诺伊大学芝加哥分校与卡内基梅隆大学的研究团队于2024年推出了ImplicitAVE数据集，这是首个公开可用的多模态隐式属性值提取数据集。该数据集基于MAVE数据集构建，经过精心筛选与扩展，涵盖服装、鞋类、珠宝、食品及家居产品五大领域，包含6.8万训练样本和1600个经人工复核的高质量测试样本，旨在推动多模态大语言模型在复杂推理任务中的研究与应用。

当前挑战

ImplicitAVE数据集致力于解决隐式属性值提取这一核心问题，其挑战在于模型需从产品图像或文本语境中推断未明确提及的属性值，这对多模态理解与细粒度推理提出了更高要求。在构建过程中，研究团队面临多重挑战：首先，需从原始数据中剔除推理不可行的属性（如电池容量）及主观性较强的属性（如舒适度），以确保数据质量；其次，通过合并语义相近的属性值、移除无关值，并进行人工检查与重标注，以纠正机器生成标注中的错误，提升数据集的准确性与可靠性。此外，数据扩展阶段需为每个样本移除显式属性值提及，并系统采集产品图像，以实现真正的隐式多模态任务设定。

常用场景

经典使用场景

在电子商务与多模态人工智能的交叉领域，ImplicitAVE数据集为隐式属性值提取任务提供了首个公开可用的基准。该数据集通过精心构建的68,604条训练实例和1,610条高质量评估实例，覆盖服装、鞋履、珠宝、食品及家居产品五大领域，并包含25个经过人工校验的属性。其经典应用场景在于评估和推动多模态大语言模型在理解产品图像与文本上下文后，对未在文本中明确提及的属性值进行推理的能力，例如仅凭透明防水鞋的图片推断其靴型为雨靴。

实际应用

在实际应用层面，ImplicitAVE数据集的能力直接赋能于电子商务生态系统的多个核心环节。基于该数据集训练的模型，能够自动化地从商品列表页中提取关键属性，显著提升产品知识图谱构建的效率和覆盖率。这进而增强了商品搜索的精准度、个性化推荐系统的相关性，以及产品分类与管理的自动化水平。对于在线零售商而言，这意味着更低的运营成本和更优的用户体验。该数据集也为开发智能购物助手、实现跨平台商品信息对齐等实际应用提供了坚实的数据基础。

衍生相关工作

围绕ImplicitAVE数据集，已衍生出一系列探索多模态大语言模型在隐式属性值提取任务上性能的经典研究工作。论文本身对BLIP-2、InstructBLIP、LLaVA、Qwen-VL及GPT-4V等六类共十一个变体模型进行了系统性基准测试，揭示了开源模型在此任务上的挑战与局限。后续研究如EIVEN框架，进一步探索了针对该任务的高效微调方法。这些工作共同推动了多模态理解模型在细粒度推理、跨模态对齐以及小样本学习等方向上的技术进步，并为缩小开源模型与顶尖闭源模型之间的性能差距指明了路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集