EcomGPT eval|电子商务数据集|语言模型评估数据集

github2023-08-01 更新2025-02-07 收录

电子商务

语言模型评估

下载链接：

https://github.com/Alibaba-NLP/EcomGPT

下载链接

链接失效反馈

资源简介：

EcomGPT评估数据集旨在评估大型语言模型（LLMs）在电子商务领域任务中的效能。该数据集包含6000个实例，每个实例是从12个专门用于电子商务评估的保留数据集中各抽取500个样本组成的。电子商务领域的任务被分为四大类：分类、生成、提取和杂项。这些任务涵盖了从粗粒度到细粒度的产品分类、产品标题生成、属性值检测以及电子商务命名实体识别等。

The EcomGPT evaluation dataset is designed to assess the performance of large language models (LLMs) in e-commerce domain tasks. The dataset consists of 6000 instances, each composed of 500 samples drawn from 12 dedicated data collections specifically for e-commerce evaluation. E-commerce tasks are categorized into four major types: classification, generation, extraction, and miscellaneous. These tasks encompass a range of activities from coarse-grained to fine-grained product classification, product title generation, attribute value detection, and e-commerce named entity recognition.

提供机构：

Alibaba

创建时间：

2023-08-01

原始信息汇总

EcomGPT数据集概述

数据集基本信息

名称: EcomInstruct
规模: 250万条指令数据
特点: 首个电子商务领域指令数据集，通过构建原子任务扩展数据规模和任务多样性
数据类型: 电子商务基础数据类型（产品信息、用户评论等）

数据集构成

评估数据集: 12个（已开源）
语言: 英文(EN)和中文(ZH)
任务类型:
- 命名实体识别
- 实体跨度检测
- 抽取式问答
- 评论主题分类
- 属性值识别
- 属性值检测
- 产品选择
- 产品对齐
- 标题属性匹配
- 细粒度产品分类
- 粗粒度产品分类
- 标题生成

文件结构

. ├── [Dataset Name] │ └── tasks │ └── [task name] │ ├── meta-info.json │ └── test.json ...

性能表现

评估结果: EcomGPT在12个电子商务保留数据集上的人工评估中，表现优于或与ChatGPT相当

引用

bigquery @article{li2023ecomgpt, title={EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task Tasks for E-commerce}, author={Li, Yangning and Ma, Shirong and Wang, Xiaobin and Huang, Shen and Jiang, Chengyue and Zheng, Hai-Tao and Xie, Pengjun and Huang, Fei and Jiang, Yong}, journal={arXiv preprint arXiv:2308.06966}, year={2023} }

AI搜集汇总

数据集介绍

构建方式

EcomGPT eval数据集的构建基于EcomInstruct指令数据集，该数据集包含250万条指令数据，旨在通过构建原子任务来扩展数据规模和任务多样性。原子任务涉及电子商务基础数据类型，如产品信息和用户评论，这些任务被定义为解决最终任务过程中隐含的中间任务，即链式任务。通过这种方式，数据集不仅丰富了任务类型，还增强了模型对基础语义的理解能力。

使用方法

使用EcomGPT eval数据集时，用户可以通过命令行工具进行模型性能评估。具体操作包括指定测试任务文件、模型名称或路径、结果文件名以及基础数据集目录。数据集文件结构清晰，每个任务目录下包含元信息文件和测试文件，便于用户快速定位和使用。此外，数据集还提供了详细的依赖安装指南，确保用户能够顺利运行评估脚本。

背景与挑战

背景概述

EcomGPT eval数据集由Yangning Li等研究人员于2023年提出，旨在通过指令微调大型语言模型（LLMs）以解决电子商务领域的复杂任务。该数据集的核心研究问题在于如何通过链式任务（Chain-of-Task）的方式，提升模型在电子商务场景中的语义理解和零样本泛化能力。EcomInstruct作为其基础数据集，包含了250万条指令数据，涵盖了产品信息、用户评论等多种电子商务基础数据类型。这一数据集的发布为电子商务领域的自然语言处理研究提供了重要的资源，推动了相关技术的发展。

当前挑战

EcomGPT eval数据集在构建和应用中面临多重挑战。首先，电子商务领域的任务多样性极高，涵盖从命名实体识别到产品分类等多种复杂任务，如何设计统一的指令格式以覆盖这些任务是一个关键问题。其次，数据集的构建需要处理海量的非结构化数据，如用户评论和产品描述，这对数据的清洗和标注提出了极高的要求。此外，尽管EcomGPT在零样本泛化能力上表现出色，但在实际应用中，如何进一步提升模型在跨语言和跨领域的适应性仍是一个亟待解决的问题。

常用场景

经典使用场景

EcomGPT eval数据集在电子商务领域的自然语言处理研究中扮演着关键角色。该数据集通过构建包含250万条指令数据的EcomInstruct，支持了从产品信息提取到用户评论分析等多种任务的训练和评估。特别是在零样本学习场景下，EcomGPT展现了卓越的泛化能力，使其成为电子商务领域语言模型研究的基石。

解决学术问题

EcomGPT eval数据集解决了电子商务领域中语言模型在复杂任务上的泛化能力问题。通过引入Chain-of-Task任务，模型能够从基础语义理解逐步过渡到复杂任务解决，显著提升了模型在命名实体识别、情感分析、产品分类等任务上的表现。这一创新为电子商务领域的自然语言处理研究提供了新的方法论支持。

实际应用

在实际应用中，EcomGPT eval数据集被广泛用于电子商务平台的智能客服、产品推荐系统和用户评论分析等场景。通过该数据集训练的模型能够高效处理多语言、多任务的需求，显著提升了用户体验和平台运营效率。例如，在跨语言产品匹配和细粒度产品分类任务中，EcomGPT展现了极高的准确性和鲁棒性。

数据集最近研究

最新研究方向

在电子商务领域，EcomGPT数据集的推出标志着大规模语言模型在电商应用中的新突破。该数据集通过构建包含250万条指令数据的EcomInstruct，显著提升了数据规模和任务多样性。这些数据涵盖了产品信息、用户评论等电商基础数据类型，并通过链式任务（Chain-of-Task）的设计，增强了模型在解决复杂任务时的语义理解能力。EcomGPT基于BLOOMZ模型进行训练，展现了卓越的零样本泛化能力，尤其在12个电商评估数据集上表现优异，甚至超越了ChatGPT。这一进展不仅推动了电商领域自然语言处理技术的发展，也为未来的智能客服、产品推荐等应用提供了强有力的技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算，为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果，以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性，还涵盖了电子结构和热力学性质等详尽信息，为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经收录

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据，旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新，并以Parquet格式提供，可通过DuckDB进行查询。

huggingface 收录

Population and Housing Census of 2007 - Ethiopia

Geographic coverage --------------------------- National coverage Analysis unit --------------------------- Household Person Housing unit Universe --------------------------- The census has counted people on dejure and defacto basis. The dejure population comprises all the persons who belong to a given area at a given time by virtue of usual residence, while under defacto approach people were counted as the residents of the place where they found. In the census, a person is said to be a usual resident of a household (and hence an area) if he/she has been residing in the household continuously for at least six months before the census day or intends to reside in the household for six months or longer. Thus, visitors are not included with the usual (dejure) population. Homeless persons were enumerated in the place where they spent the night on the enumeration day. The 2007 census counted foreign nationals who were residing in the city administration. On the other hand all Ethiopians living abroad were not counted. Kind of data --------------------------- Census/enumeration data [cen] Mode of data collection --------------------------- Face-to-face [f2f] Research instrument --------------------------- Two type sof questionnaires were used to collect census data: i) Short questionnaire ii) Long questionnaire Unlike the previous censuses, the contents of the short and long questionnaires were similar both for the urban and rural areas as well as for the entire city. But the short and the long questionnaires differ by the number of variables they contained. That is, the short questionnaire was used to collect basic data on population characteristics, such as population size, sex, age, language, ethnic group, religion, orphanhood and disability. Whereas the long questionnaire includes information on marital status, education, economic activity, migration, fertility, mortality, as well as housing stocks and conditions in addition to those questions contained in a short questionnaire.

catalog.ihsn.org 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录