five

Shopping MMLU|在线购物数据集|语言模型评估数据集

收藏
arXiv2024-10-28 更新2024-10-30 收录
在线购物
语言模型评估
下载链接:
https://github.com/KL4805/ShoppingMMLU
下载链接
链接失效反馈
资源简介:
Shopping MMLU是一个大规模的多任务在线购物基准数据集,由亚马逊公司创建,旨在全面评估大型语言模型(LLMs)在在线购物领域的多任务处理能力。该数据集包含57个任务,涵盖概念理解、知识推理、用户行为对齐和多语言能力四大购物技能,共有20,799个问题。数据集的创建过程基于真实的亚马逊数据,并通过重新制定任务为文本生成任务来适应LLM的解决方案。Shopping MMLU的应用领域主要是在线购物助手,旨在通过减少任务特定的工程努力和提供用户互动对话来改善在线购物体验。
提供机构:
亚马逊公司
创建时间:
2024-10-28
原始信息汇总

Shopping MMLU 数据集概述

数据集简介

  • 名称: Shopping MMLU
  • 描述: 一个用于大型语言模型(LLMs)的在线购物多任务基准测试,涵盖四个主要购物技能:购物概念理解、购物知识推理、用户行为对齐和多语言能力。
  • 发布机构: 由 NeurIPS 2024 数据集和基准测试轨道接受,并用于 Amazon KDD Cup 2024。

数据集结构

  • 数据文件夹: data
  • 技能评估代码: skill_wise_eval
  • 任务评估代码: task_wise_eval

数据格式

  • 任务类型: 包含五种不同类型的任务:
    • 多选题: .csv 格式,包含三列:questionchoicesanswer
    • 其他任务: .json 格式,包含两个字段:input_fieldtarget_field

数据下载

  • 下载方式: 下载 data.zip 文件,解压到 data 文件夹中。

评估方法

依赖库

  • 主要依赖:
    • transformers==4.37.0
    • torch==2.1.2+cu121
    • pandas==2.0.3
    • evaluate==0.4.1
    • sentence_transformers==2.2.2
    • rouge_score
    • sacrebleu
    • sacrebleu[jp]

单任务评估

  • 示例: 评估 Vicuna-7B-v1.5 模型在 multiple_choice 任务上的表现。 bash cd task_wise_eval/ python3 hf_multi_choice.py --test_subject asin_compatibility --model_name vicuna2

技能整体评估

  • 示例: 评估 Vicuna-7B-v1.5 模型在 skill1_concept 技能上的表现。 bash cd skill_wise_eval/ python3 hf_skill_inference.py --model_name vicuna2 --filename skill1_concept --output_filename <your_filename> python3 skill_evaluation.py --data_filename skill1_concept --output_filename vicuna2_<your_filename>

参考文献

AI搜集汇总
数据集介绍
main_image_url
构建方式
Shopping MMLU 数据集的构建基于真实的亚马逊数据,涵盖了57个任务,涉及4大购物技能:概念理解、知识推理、用户行为对齐和多语言能力。数据集通过重新构建所有任务为文本生成任务,以适应基于大型语言模型的解决方案。此外,为了实现对模型能力的细粒度分析,数据集被划分为4个购物技能,每个技能下又细分为多个子技能。
特点
Shopping MMLU 数据集的特点在于其多样性和全面性,涵盖了在线购物中的多种实体和任务,如产品、类别、属性、查询、评论和会话等。数据集不仅包括多语言任务,还特别关注了领域特定的概念、隐含知识和异质用户行为,这些都是在在线购物中大型语言模型面临的独特挑战。
使用方法
Shopping MMLU 数据集适用于评估和开发基于大型语言模型的在线购物助手。研究者和工程师可以使用该数据集来测试和改进模型在多任务环境下的表现,特别是在概念理解、知识推理、用户行为对齐和多语言能力方面的表现。数据集的公开访问和详细的任务描述使得研究人员能够进行深入的实验和分析,从而推动领域特定大型语言模型的发展。
背景与挑战
背景概述
Shopping MMLU,由Amazon.com和香港科技大学(HKUST)的研究人员共同开发,是一个大规模的多任务在线购物基准数据集,专门为大型语言模型(LLMs)设计。该数据集的创建旨在解决现有模型和基准在捕捉在线购物复杂性方面的不足,特别是针对多任务和少样本学习问题。Shopping MMLU涵盖了57个任务,涉及四大购物技能:概念理解、知识推理、用户行为对齐和多语言能力。通过使用真实的亚马逊数据,该数据集能够全面评估LLMs作为通用购物助手的潜力。自2024年发布以来,Shopping MMLU已成为评估和推动在线购物领域LLMs发展的关键资源,并在KDD Cup 2024竞赛中吸引了超过500支参赛队伍。
当前挑战
Shopping MMLU面临的主要挑战包括:1) 领域特定的短文本理解,这些文本包含品牌、型号等特定实体,对通用LLMs尤其具有挑战性;2) 隐性知识推理,要求模型理解和应用复杂的产品兼容性和品牌相似性等隐性知识;3) 用户行为的异质性,包括查询、浏览和购买等行为,这些行为在预训练数据中很少见;4) 多语言任务,在线购物涉及多种语言,而大多数LLMs主要以英语进行训练。此外,数据集的构建过程中也面临数据质量和多样性的挑战,确保数据的真实性和代表性是关键。
常用场景
经典使用场景
Shopping MMLU 数据集的经典使用场景在于评估大型语言模型(LLMs)在多任务在线购物环境中的表现。该数据集涵盖了4大购物技能:概念理解、知识推理、用户行为对齐和多语言能力,能够全面评估LLMs作为通用购物助手的能力。通过在Shopping MMLU上的基准测试,研究人员可以深入了解LLMs在处理复杂在线购物任务时的优势与不足,从而指导模型的进一步优化和应用。
实际应用
Shopping MMLU 数据集在实际应用中具有广泛的前景。它可以帮助电商平台开发更智能的购物助手,通过理解和推理用户的购物行为,提供个性化的推荐和交互体验。此外,该数据集还可用于培训和评估企业内部的AI系统,提升其在处理复杂购物任务时的准确性和效率。通过实际应用,Shopping MMLU 有望显著改善用户的在线购物体验,提升电商平台的用户满意度和销售额。
衍生相关工作
Shopping MMLU 数据集的提出催生了多项相关研究工作。例如,基于该数据集的竞赛和研讨会(如KDD Cup 2024)吸引了全球500多个团队的参与,推动了LLMs在在线购物领域的技术交流和创新。此外,该数据集还激发了对多语言任务、用户行为建模和知识推理等方向的深入研究,促进了领域内多任务学习和少样本学习技术的进步。这些衍生工作不仅丰富了在线购物领域的研究内容,也为其他用户导向服务的LLM应用提供了借鉴和参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录