McMarket

Name: McMarket
Creator: 哥本哈根大学, 新加坡管理大学, 阿姆斯特丹大学
Published: 2024-09-24 20:24:34
License: 暂无描述

arXiv2024-09-24 更新2024-09-26 收录

下载链接：

https://github.com/yfyuan01/MCPQA

下载链接

链接失效反馈

官方服务：

资源简介：

McMarket是一个大规模的多语言跨市场产品问答数据集，由哥本哈根大学、新加坡管理大学和阿姆斯特丹大学共同创建。该数据集包含超过700万条来自17个市场、11种语言的产品相关问题，以及5200万条产品评论。数据集的创建过程包括从Amazon平台爬取数据，并使用DeepL和NLLB模型进行自动翻译。McMarket旨在解决多语言环境下跨市场产品问答的问题，通过利用辅助市场的丰富资源来提升主市场的问答质量。

McMarket is a large-scale multilingual cross-market product question answering dataset co-created by the University of Copenhagen, Singapore Management University, and the University of Amsterdam. This dataset contains over 7 million product-related questions spanning 17 markets and 11 languages, as well as 52 million product reviews. The dataset construction workflow involves scraping data from the Amazon platform, followed by automatic translation using both DeepL and NLLB models. McMarket aims to address the challenges of cross-market product question answering in multilingual environments, by leveraging rich resources from auxiliary markets to improve the quality of question answering systems in main markets.

提供机构：

哥本哈根大学, 新加坡管理大学, 阿姆斯特丹大学

创建时间：

2024-09-24

原始信息汇总

MCPQA

搜集汇总

数据集介绍

构建方式

McMarket数据集的构建基于XMarket数据集，涵盖了来自17个不同市场和11种语言的真实亚马逊产品问答数据。该数据集包含超过700万条产品相关问题和5200万条产品评论。为了便于研究，特别是电子产品类别，数据集中的非英语内容通过DeepL和NLLB模型进行了自动翻译，命名为McMarket。此外，数据集还针对两个子任务进行了标注：基于评论的答案生成和产品相关问题排序，分别使用GPT-4进行自动标注，并进行了人工评估以确保标注质量。

特点

McMarket数据集的主要特点在于其多语言和跨市场的特性，涵盖了17个市场和11种语言，提供了丰富的产品相关问题和评论信息。此外，数据集通过自动翻译和GPT-4标注，确保了数据的高质量和多样性。这些特点使得McMarket成为研究多语言跨市场产品问答任务的理想数据集。

使用方法

McMarket数据集可用于训练和评估多语言跨市场产品问答模型。研究者可以使用该数据集进行基于评论的答案生成和产品相关问题排序任务的研究。数据集提供了详细的标注和翻译，便于模型在不同语言和市场间的迁移学习。此外，数据集还提供了GPT-4标注的子集，可用于进一步验证和改进模型的性能。

背景与挑战

背景概述

McMarket数据集由Yifei Yuan、Yang Deng、Anders Søgaard和Mohammad Aliannejadi等研究人员于2024年创建，旨在解决多语言跨市场产品相关问答（MCPQA）的核心研究问题。该数据集涵盖了来自17个市场、11种语言的超过700万个产品相关问题，并特别针对电子产品类别进行了自动翻译，命名为McMarket。McMarket数据集的构建不仅推动了产品问答系统的发展，还为跨市场信息利用提供了新的研究方向，对电子商务平台上的用户体验提升具有重要影响。

当前挑战

McMarket数据集面临的挑战主要集中在两个方面。首先，跨市场产品问答的领域问题要求模型能够有效利用资源丰富的辅助市场信息来回答资源稀缺市场的产品相关问题，这涉及到信息检索和多语言理解的复杂性。其次，数据集构建过程中遇到的挑战包括多语言数据的收集、翻译和标注，以及如何确保标注质量的可靠性。此外，如何在大规模多语言数据集上训练和评估模型，以实现跨市场信息的高效利用，也是当前研究的重要课题。

常用场景

经典使用场景

McMarket数据集在多语言跨市场产品问答（MCPQA）任务中展现了其经典应用场景。该数据集通过整合来自17个市场、11种语言的超过700万条产品相关问题，为研究者提供了一个大规模的基准数据集。其核心应用在于利用资源丰富的辅助市场信息，为资源匮乏的主市场提供精确的产品问答服务。具体任务包括基于评论的答案生成和产品相关问题的排序，这些任务通过自动翻译和大型语言模型（LLM）的标注，进一步提升了数据集的质量和实用性。

衍生相关工作

McMarket数据集的发布催生了一系列相关的经典工作。研究者们基于该数据集开展了多项研究，包括跨市场信息检索、多语言问答系统、以及大型语言模型在产品问答中的应用等。例如，有研究通过对比单市场和跨市场的问答性能，验证了跨市场信息在提升问答质量方面的显著优势。此外，还有研究探讨了如何利用LLM进行自动标注和评估，进一步提升了数据集的质量和应用价值。这些研究不仅推动了学术界在相关领域的发展，也为工业界的实际应用提供了有力的技术支持。

数据集最近研究