Shopping MMLU

Name: Shopping MMLU
Creator: 亚马逊公司
Published: 2024-10-28 13:25:47
License: 暂无描述

arXiv2024-10-28 更新2024-10-30 收录

下载链接：

https://github.com/KL4805/ShoppingMMLU

下载链接

链接失效反馈

官方服务：

资源简介：

Shopping MMLU是一个大规模的多任务在线购物基准数据集，由亚马逊公司创建，旨在全面评估大型语言模型（LLMs）在在线购物领域的多任务处理能力。该数据集包含57个任务，涵盖概念理解、知识推理、用户行为对齐和多语言能力四大购物技能，共有20,799个问题。数据集的创建过程基于真实的亚马逊数据，并通过重新制定任务为文本生成任务来适应LLM的解决方案。Shopping MMLU的应用领域主要是在线购物助手，旨在通过减少任务特定的工程努力和提供用户互动对话来改善在线购物体验。

Shopping MMLU is a large-scale multi-task online shopping benchmark dataset developed by Amazon, which aims to comprehensively evaluate the multi-task processing capabilities of large language models (LLMs) in the online shopping domain. This dataset contains 57 tasks covering four core shopping skills: concept understanding, knowledge reasoning, user behavior alignment and multilingual capabilities, with a total of 20,799 questions. The dataset is constructed based on real Amazon data, and all tasks were reformulated into text generation tasks to adapt to the solution approaches of LLMs. The primary application scenarios of Shopping MMLU focus on online shopping assistants, with the goal of enhancing the online shopping experience by reducing task-specific engineering efforts and supporting user interactive conversations.

提供机构：

亚马逊公司

创建时间：

2024-10-28

原始信息汇总

Shopping MMLU 数据集概述

数据集简介

名称: Shopping MMLU
描述: 一个用于大型语言模型（LLMs）的在线购物多任务基准测试，涵盖四个主要购物技能：购物概念理解、购物知识推理、用户行为对齐和多语言能力。
发布机构: 由 NeurIPS 2024 数据集和基准测试轨道接受，并用于 Amazon KDD Cup 2024。

数据集结构

数据文件夹: data
技能评估代码: skill_wise_eval
任务评估代码: task_wise_eval

数据格式

任务类型: 包含五种不同类型的任务：
- 多选题: .csv 格式，包含三列：question、choices、answer。
- 其他任务: .json 格式，包含两个字段：input_field 和 target_field。

数据下载

下载方式: 下载 data.zip 文件，解压到 data 文件夹中。

评估方法

依赖库

主要依赖:
- transformers==4.37.0
- torch==2.1.2+cu121
- pandas==2.0.3
- evaluate==0.4.1
- sentence_transformers==2.2.2
- rouge_score
- sacrebleu
- sacrebleu[jp]

单任务评估

示例: 评估 Vicuna-7B-v1.5 模型在 multiple_choice 任务上的表现。 bash cd task_wise_eval/ python3 hf_multi_choice.py --test_subject asin_compatibility --model_name vicuna2

技能整体评估

示例: 评估 Vicuna-7B-v1.5 模型在 skill1_concept 技能上的表现。 bash cd skill_wise_eval/ python3 hf_skill_inference.py --model_name vicuna2 --filename skill1_concept --output_filename <your_filename> python3 skill_evaluation.py --data_filename skill1_concept --output_filename vicuna2_<your_filename>

参考文献

论文: 详细信息可在 arXiv 链接中找到。
KDD Cup 挑战赛: 更多信息可在 KDD Cup 2024 网站中找到。

搜集汇总

数据集介绍

构建方式

Shopping MMLU 数据集的构建基于真实的亚马逊数据，涵盖了57个任务，涉及4大购物技能：概念理解、知识推理、用户行为对齐和多语言能力。数据集通过重新构建所有任务为文本生成任务，以适应基于大型语言模型的解决方案。此外，为了实现对模型能力的细粒度分析，数据集被划分为4个购物技能，每个技能下又细分为多个子技能。

特点

Shopping MMLU 数据集的特点在于其多样性和全面性，涵盖了在线购物中的多种实体和任务，如产品、类别、属性、查询、评论和会话等。数据集不仅包括多语言任务，还特别关注了领域特定的概念、隐含知识和异质用户行为，这些都是在在线购物中大型语言模型面临的独特挑战。

使用方法

Shopping MMLU 数据集适用于评估和开发基于大型语言模型的在线购物助手。研究者和工程师可以使用该数据集来测试和改进模型在多任务环境下的表现，特别是在概念理解、知识推理、用户行为对齐和多语言能力方面的表现。数据集的公开访问和详细的任务描述使得研究人员能够进行深入的实验和分析，从而推动领域特定大型语言模型的发展。

背景与挑战

背景概述

Shopping MMLU，由Amazon.com和香港科技大学（HKUST）的研究人员共同开发，是一个大规模的多任务在线购物基准数据集，专门为大型语言模型（LLMs）设计。该数据集的创建旨在解决现有模型和基准在捕捉在线购物复杂性方面的不足，特别是针对多任务和少样本学习问题。Shopping MMLU涵盖了57个任务，涉及四大购物技能：概念理解、知识推理、用户行为对齐和多语言能力。通过使用真实的亚马逊数据，该数据集能够全面评估LLMs作为通用购物助手的潜力。自2024年发布以来，Shopping MMLU已成为评估和推动在线购物领域LLMs发展的关键资源，并在KDD Cup 2024竞赛中吸引了超过500支参赛队伍。

当前挑战

Shopping MMLU面临的主要挑战包括：1) 领域特定的短文本理解，这些文本包含品牌、型号等特定实体，对通用LLMs尤其具有挑战性；2) 隐性知识推理，要求模型理解和应用复杂的产品兼容性和品牌相似性等隐性知识；3) 用户行为的异质性，包括查询、浏览和购买等行为，这些行为在预训练数据中很少见；4) 多语言任务，在线购物涉及多种语言，而大多数LLMs主要以英语进行训练。此外，数据集的构建过程中也面临数据质量和多样性的挑战，确保数据的真实性和代表性是关键。

常用场景

经典使用场景

Shopping MMLU 数据集的经典使用场景在于评估大型语言模型（LLMs）在多任务在线购物环境中的表现。该数据集涵盖了4大购物技能：概念理解、知识推理、用户行为对齐和多语言能力，能够全面评估LLMs作为通用购物助手的能力。通过在Shopping MMLU上的基准测试，研究人员可以深入了解LLMs在处理复杂在线购物任务时的优势与不足，从而指导模型的进一步优化和应用。

实际应用

Shopping MMLU 数据集在实际应用中具有广泛的前景。它可以帮助电商平台开发更智能的购物助手，通过理解和推理用户的购物行为，提供个性化的推荐和交互体验。此外，该数据集还可用于培训和评估企业内部的AI系统，提升其在处理复杂购物任务时的准确性和效率。通过实际应用，Shopping MMLU 有望显著改善用户的在线购物体验，提升电商平台的用户满意度和销售额。

衍生相关工作

Shopping MMLU 数据集的提出催生了多项相关研究工作。例如，基于该数据集的竞赛和研讨会（如KDD Cup 2024）吸引了全球500多个团队的参与，推动了LLMs在在线购物领域的技术交流和创新。此外，该数据集还激发了对多语言任务、用户行为建模和知识推理等方向的深入研究，促进了领域内多任务学习和少样本学习技术的进步。这些衍生工作不仅丰富了在线购物领域的研究内容，也为其他用户导向服务的LLM应用提供了借鉴和参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集