MAVE
收藏arXiv2021-12-16 更新2024-06-21 收录
下载链接:
https://github.com/google-research-datasets/MAVE
下载链接
链接失效反馈官方服务:
资源简介:
MAVE数据集是由谷歌研究团队创建的,旨在促进产品属性值提取研究。该数据集包含从亚马逊页面精选的220万种产品,覆盖1257个独特类别,拥有300万条属性值标注。MAVE数据集的四大优势包括:规模最大、多源信息捕获、属性值多样性以及提供具有挑战性的零样本测试集。此数据集不仅适用于属性值提取任务,还能有效应对零样本属性提取的挑战,广泛应用于电子商务领域的客户服务机器人、产品排名、检索和推荐系统等。
The MAVE dataset was developed by the Google Research team to facilitate research on product attribute value extraction. This dataset includes 2.2 million products curated from Amazon webpages, spanning 1,257 distinct categories, and features 3 million annotated attribute value entries. The four core advantages of the MAVE dataset are as follows: the largest scale, multi-source information capture, diverse attribute values, and provision of a challenging zero-shot test set. This dataset is not only suitable for attribute value extraction tasks, but also effectively addresses the challenges of zero-shot attribute extraction, and is widely applied in e-commerce scenarios including customer service robots, product ranking, retrieval, and recommendation systems.
提供机构:
谷歌研究
创建时间:
2021-12-16
搜集汇总
数据集介绍

构建方式
在电子商务领域,产品属性值的完整性对提升用户体验和系统性能至关重要。MAVE数据集的构建依托于亚马逊公开的产品评论数据,通过精心设计的流程确保数据质量。首先,从原始数据中提取产品标题、描述、特征、价格和品牌等多源信息,并进行严格的文本清洗,移除HTML标签、无效字符及信息不足的产品条目。随后,基于预定义的类别特定属性,采用集成学习策略,训练多个AVEQA模型进行属性值跨度的提取,并通过人工设计的规则将预测结果映射为归一化属性值。最终,通过模型一致性聚合生成高质量的正负样本集合,确保数据集的精确性与覆盖广度。
特点
MAVE数据集在属性值提取领域展现出多项显著优势。其规模宏大,涵盖超过220万产品及300万条属性值标注,涉及1257个独特类别,是目前同类数据集中规模最大的资源。数据集的多源特性尤为突出,产品信息整合了标题、描述、规格及键值对等多种来源,全面捕捉产品属性,显著提升了属性覆盖的完整性。此外,数据多样性丰富,包含2535个独特属性和10万个独特值,超越了以往数据集的范畴。特别值得注意的是,MAVE提供了一个极具挑战性的零样本测试集,为模型在未见属性上的泛化能力评估提供了坚实基础。
使用方法
MAVE数据集适用于多种属性值提取任务的研究与应用。在模型训练方面,研究者可利用其丰富的多源产品信息和大量标注数据,开发或优化序列标注、问答系统等先进模型,以提升属性提取的准确性与鲁棒性。数据集支持全属性训练,也允许针对特定头部或尾部属性进行针对性实验,以探索模型在不同数据分布下的表现。对于零样本学习,MAVE的零样本测试集为评估模型在未见属性上的泛化能力提供了标准基准。此外,数据集的长序列特性使其成为测试和优化长文本处理模型的理想资源,推动相关技术在电子商务场景中的实际应用。
背景与挑战
背景概述
在电子商务蓬勃发展的时代背景下,产品属性值提取成为提升平台服务质量与用户体验的关键技术。2022年,谷歌研究团队推出了MAVE数据集,旨在解决商品信息中属性值不完整且动态变化的现实难题。该数据集构建于亚马逊产品页面,囊括了220万商品与300万条属性值标注,覆盖1257个独特类别,其规模与多样性均居领域前列。MAVE的诞生不仅为属性值提取研究提供了前所未有的丰富资源,更通过引入多源产品信息表征,显著推动了客户服务机器人、产品检索与推荐等核心应用场景的技术演进。
当前挑战
MAVE数据集所应对的核心领域挑战在于零样本属性值提取,即模型需从未在训练中见过的属性中准确抽取值,这对模型的泛化能力提出了极高要求。在构建过程中,研究团队面临多重困难:首先,需从海量、异构的多源产品信息中精准定位并归一化属性值,确保标注的高质量与高精度;其次,处理长序列文本与多源结构信息对模型架构与计算效率构成严峻考验;最后,如何保证数据集中属性与值的多样性,以真实反映电子商务中不断涌现的新品类与新属性,亦是数据集构建的关键难点。
常用场景
经典使用场景
在电子商务领域,产品属性值提取是构建智能商品知识库的核心任务,MAVE数据集以其多源信息融合的特性,为这一任务提供了理想的实验平台。该数据集通过整合产品标题、描述、特征、规格及关键值对等多种信息源,模拟了真实电商环境中产品信息的复杂结构,使得研究者能够开发模型从异构文本中精准提取属性值。其经典应用场景包括训练序列标注或问答式模型,以识别如“电池续航时间”或“屏幕尺寸”等属性,并标注其在文本中的具体位置,从而推动自动化信息抽取技术的发展。
解决学术问题
MAVE数据集有效应对了产品属性值提取研究中的若干关键挑战。它通过提供大规模、高质量的多源标注数据,解决了以往数据集规模有限、信息源单一以及属性多样性不足的问题。该数据集特别针对零样本属性提取设置了具有挑战性的测试集,促进了模型在未见属性上的泛化能力研究。其意义在于为学术界建立了一个标准化基准,推动了基于Transformer的先进模型(如ETC架构)在长序列和多源信息处理中的应用,从而深化了对属性间知识迁移机制的理解。
衍生相关工作
MAVE数据集的发布催生了一系列创新性研究工作,尤其在多源信息建模和零样本学习方向产生了深远影响。以该数据集为基础,研究者提出了如MAVEQA等新型问答式提取模型,其采用ETC编码器有效处理长序列和多源结构,成为后续研究的参考范式。同时,数据集启发了对少样本和零样本属性提取的深入探索,推动了基于预训练语言模型的迁移学习策略发展。这些衍生工作不仅丰富了属性值提取的技术谱系,也为跨领域信息抽取任务提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



