EcomEval

github2025-10-27 更新2025-10-31 收录

下载链接：

https://github.com/ShopeeLLM/EcomEval

下载链接

链接失效反馈

官方服务：

资源简介：

EcomEval是一个全面的多语言多模态基准测试，用于评估电子商务领域的LLM。它涵盖六个类别和37个任务，涉及七种语言（英语、中文、印尼语、越南语、泰语、马来语、葡萄牙语），解决低资源设置问题并反映全球在线电子商务的广度。

EcomEval is a comprehensive multilingual multimodal benchmark for evaluating large language models (LLMs) in the e-commerce domain. It covers six categories and 37 tasks across seven languages, including English, Chinese, Indonesian, Vietnamese, Thai, Malay and Portuguese, addressing low-resource settings and reflecting the breadth of global online e-commerce.

创建时间：

2025-10-27

原始信息汇总

EcomEval数据集概述

数据集简介

EcomEval是一个全面的多语言多模态基准测试，专门用于评估大型语言模型在电子商务领域的性能。该数据集涵盖6个主要类别和37个任务，覆盖7种语言（英语、中文、印尼语、越南语、泰语、马来语、葡萄牙语），旨在解决低资源语言环境问题并反映全球在线电子商务的广度。

任务类别

Ecom Question Answering（电商问答）
Shopping Concepts（购物概念）
User Understanding（用户理解）
Shopping Reasoning（购物推理）
Ecom Generation（电商生成）
Ecom Multimodal（电商多模态）

数据集构建流程

收集来自大型语言模型使用的API调用日志和网站查询
通过前缀分组对API数据进行聚类，并使用微调模型对网站数据进行分类，形成37个代表性任务类别
验证采样问题是否与电子商务相关、连贯且无歧义
使用大型语言模型、外部资源和人工专家评审生成并事实核查多语言答案

引用信息

如需使用本数据集，请引用以下文献：

@article{EcomEval, title={EcomEval: Towards Reliable Evaluation of Large Language Models for Multilingual and Multimodal E-Commerce Applications}, author={Shuyi Xie and Ziqin Liew and Hailing Zhang and Haibo Zhang and Ling Hu and Zhiqiang Zhou and Shuman Liu and AnXiang Zeng}, journal={arXiv preprint arXiv}, url={https://arxiv.org/abs/2510.20632}, year={2025} }

搜集汇总

数据集介绍

构建方式

在电子商务智能化评估领域，EcomEval数据集的构建遵循严谨的四阶段流程。初始阶段通过收集大型语言模型使用过程中的API调用日志与网站查询记录，形成原始数据池；随后采用前缀聚类技术对API数据进行分组，并借助精调模型对网站查询进行分类，最终确立37个代表性任务类别；第三阶段通过人工审核确保每个问题的电商相关性、逻辑连贯性与表述清晰度；最终阶段结合多语言大模型生成答案，并引入外部知识源与领域专家交叉验证，保障回答的准确性与可靠性。

特点

作为电子商务评估领域的突破性成果，该数据集展现出鲜明的多维特征。其覆盖六大核心范畴与37项细分任务，囊括问答系统、用户理解、购物推理等典型电商场景，同时兼顾商户与消费者双重视角。独特的多语言架构涵盖英语、中文及东南亚五类语种，有效弥补低资源语言的评估空白。更值得关注的是引入多模态评估维度，通过文本与图像数据的协同分析，精准模拟真实电商环境中复杂的信息交互场景。

使用方法

面向电子商务语言模型评估的实际需求，该数据集提供系统化的应用方案。研究者可依据六类任务框架开展模型能力诊断，通过多语言任务对比分析模型的文化适应性，借助低资源语种测试评估技术普惠性。多模态任务组合能有效检验模型的跨模态理解能力，而商户与用户双视角任务则为商业应用提供全景式评估依据。实验过程中建议参照原始论文的验证流程，结合人工评测与自动指标实现综合性能度量。

背景与挑战

背景概述

随着电子商务在全球范围内的蓬勃发展，多语言和多模态数据处理成为提升智能服务能力的关键。EcomEval基准数据集由研究团队于2025年创建，旨在系统评估大型语言模型在电子商务场景中的综合性能。该数据集覆盖六大核心类别和37项具体任务，涵盖七种语言，包括英语、中文及多种低资源语言，致力于解决电子商务领域中的多语言理解和多模态交互问题，为全球电商智能应用提供了标准化评估框架。

当前挑战

EcomEval基准致力于应对电子商务领域多语言与多模态任务评估的复杂性挑战，尤其在低资源语言理解和跨模态推理方面存在显著困难。在构建过程中，数据集需从API日志和网站查询中有效聚类任务，并通过多语言答案生成与事实核查确保数据质量，同时依赖人工专家评审以维持跨语言内容的一致性和准确性。

常用场景

经典使用场景

在电子商务领域，多语言与多模态数据处理已成为评估人工智能模型的关键挑战。EcomEval数据集通过涵盖六类核心任务与三十七项具体场景，为大型语言模型提供了标准化的测试环境。其典型应用包括商品问答解析、用户意图识别及跨语言购物推理，尤其在低资源语言场景下展现出卓越的适应性，为全球化电商平台的智能服务奠定了评估基础。

衍生相关工作

基于该数据集衍生的研究已形成系列重要成果，包括跨语言知识蒸馏框架的设计、多模态对比学习方法的改进等。这些工作不仅深化了对电商场景下语义理解机制的认识，更催生了如动态商品描述生成、跨文化消费偏好分析等创新应用，持续推动着智能商业技术生态的演进与完善。

数据集最近研究