EC-Guide
收藏github2024-07-29 更新2024-07-30 收录
下载链接:
https://github.com/fzp0424/EC-Guide-KDDUP-2024
下载链接
链接失效反馈官方服务:
资源简介:
EC-Guide是一个专为电子商务场景设计的综合数据集,包含多种任务类型,如生成、多选题、检索、排序和命名实体识别等。数据集由人工创建或通过ChatGPT生成,涵盖了多个子任务,如产品详细描述、产品问答、类别识别等,共有74,704个示例。
EC-Guide is a comprehensive dataset specifically tailored for e-commerce scenarios, which encompasses a diverse range of task types including generation, multiple-choice question answering, retrieval, ranking, and named entity recognition. The dataset is created either manually or generated via ChatGPT, covering multiple subtasks such as product detailed descriptions, product Q&A, category recognition and so on, with a total of 74,704 examples.
创建时间:
2024-07-29
原始信息汇总
EC-Guide 数据集概述
数据集统计信息
| 任务类型 | 子任务 | 示例数量 | 来源 |
|---|---|---|---|
| 生成 | 产品详细说明 (PE) | 479 | ecinstruct |
| 产品问答 (PQA) | 6,834 | amazonqa | |
| 类别识别 (CR) | 1,000 | amazonmetadata | |
| 解释成对时尚 (EPF) | 3,000 | PairwiseFashion | |
| 解释一起购买 (EBT) | 2,315 | IntentionQA | |
| 提取评论关键词 (ERK) | 4,000 | ecinstruct, PairwiseFashion | |
| 产品关键词摘要 (PKS) | 1,296 | esci, ecinstruct, amazonreview | |
| 评论标题摘要 (RTS) | 1,455 | amazonreview, Womens_Clothing_Reviews | |
| 多语言翻译 (MT) | 2,997 | amazon-m2, flores | |
| 多选题 (MCQ) | 根据属性选择产品 (SPA) | 520 | ecinstruct |
| 根据产品选择属性 (SAP) | 1,385 | amazonreview | |
| 产品关系预测 (PRP) | 1,499 | ecinstruct | |
| 查询产品关系预测 (QPRP) | 2,150 | esci | |
| 查询产品关系判断 (QPRJ) | 501 | ecinstruct | |
| 情感分析 (SA) | 3,500 | ecinstruct, Womens_Clothing_Reviews | |
| 产品关键词摘要 (PKS) | 271 | esci | |
| 多语言描述匹配 (MDM) | 500 | amazonreview | |
| 算术和常识推理 (ACR) | 7,184 | gsm8k, commonsenseqa | |
| 检索 | 推断潜在购买 (IPP) | 10,774 | ecinstruct, amazon-m2 |
| 检索评论片段 (RRS) | 810 | amazonreview | |
| 检索评论方面 (RRA) | 1,000 | amazonreview | |
| 类别识别 (CR) | 7,500 | amazonmetadata | |
| 产品识别 (PR) | 2,297 | amazonmetadata | |
| 排序 | 查询产品排序 (QPR) | 4,008 | esci |
| 命名实体识别 (NER) | 命名实体识别 (NER) | 7,429 | ecinstruct, amazonreview, product-attribute-extraction |
| 总计 | - | 74,704 | - |
数据集来源
EC-Guide 数据集由人工创建或通过 ChatGPT 生成。数据来源包括:
搜集汇总
数据集介绍

构建方式
在构建EC-Guide数据集时,研究团队采用了多源数据融合的方法,结合了来自多个公开数据集的资源,如ECInstruct、amazonqa、PairFashionExplanation等。这些数据集涵盖了产品详细描述、问答、类别识别、时尚搭配解释等多个子任务。通过ChatGPT进行数据生成和手动创建,确保了数据集的多样性和高质量。此外,研究团队还引入了CoT(Chain of Thought)推理机制,以增强大语言模型在算术和常识推理方面的能力,从而提升整体性能。
使用方法
EC-Guide数据集适用于多种自然语言处理任务,包括但不限于产品详细描述生成、问答系统、类别识别、时尚搭配解释等。用户可以通过Hugging Face平台访问该数据集,并将其应用于模型训练和评估。为了充分利用数据集的多任务特性,建议用户在训练模型时采用多任务学习策略,以提升模型在电子商务场景中的综合表现。此外,数据集的CoT推理机制也为用户提供了优化模型推理能力的有效途径。
背景与挑战
背景概述
EC-Guide数据集由浙江大学AI4H团队在2024年Amazon KDD Cup竞赛中创建,专注于电子商务场景下的大语言模型(LLMs)应用。该数据集旨在通过多任务学习提升LLMs在电子商务中的表现,涵盖了产品描述、问题回答、分类识别、情感分析等多个子任务。EC-Guide的构建基于ChatGPT生成和人工创建的数据,整合了多个公开数据集,如ECInstruct、AmazonQA等,以确保数据的多样性和实用性。这一数据集的推出,标志着电子商务领域在利用先进AI技术提升用户体验方面迈出了重要一步。
当前挑战
EC-Guide数据集在构建过程中面临多重挑战。首先,数据集需涵盖广泛的任务类型,从生成到检索再到排序,这要求数据的高质量和多样性。其次,整合多个来源的数据集,确保数据的一致性和准确性,是一个技术难题。此外,如何在电子商务场景中有效应用LLMs,特别是在处理复杂的推理任务如算术和常识推理时,仍需进一步优化。最后,数据集的规模和复杂性对模型训练和推理提出了高要求,如何在有限的计算资源下实现高效训练和推理,是当前亟待解决的问题。
常用场景
经典使用场景
在电子商务领域,EC-Guide数据集被广泛应用于大型语言模型(LLMs)的指令调优和量化过程中。该数据集通过集成链式思维(CoT)推理,显著提升了LLMs在电子商务场景中的算术能力。具体而言,EC-Guide涵盖了从产品详细描述生成、产品问答、类别识别到多语言翻译等多个子任务,为模型提供了丰富的训练样本,从而在多个电子商务任务中实现了卓越的性能提升。
解决学术问题
EC-Guide数据集在学术研究中解决了多个关键问题,特别是在电子商务领域中,如何有效提升大型语言模型的推理能力和算术处理能力。通过引入链式思维推理,该数据集不仅增强了模型的逻辑推理能力,还显著提高了其在复杂电子商务任务中的表现。此外,EC-Guide的多任务特性为研究者提供了一个全面的平台,用于探索和优化LLMs在不同电子商务场景中的应用。
实际应用
在实际应用中,EC-Guide数据集被广泛用于优化电子商务平台的智能推荐系统、客户服务自动化以及产品描述生成等关键功能。通过利用该数据集训练的模型,电子商务平台能够更准确地理解用户需求,提供个性化的产品推荐,并自动生成高质量的产品描述和问答内容,从而显著提升用户体验和销售转化率。
数据集最近研究
最新研究方向
在电子商务领域,EC-Guide数据集的最新研究方向主要集中在大型语言模型(LLMs)在多任务在线购物挑战中的应用。研究者们通过构建综合的数据集和指令调优策略,显著提升了LLMs在电子商务场景中的表现。特别是,通过引入链式推理(CoT)技术,增强了LLMs的算术能力,从而在多个任务中取得了优异的成绩。此外,量化训练和推理优化也是当前研究的热点,旨在提高模型的效率和性能。这些研究不仅推动了电子商务领域的发展,也为其他相关领域的LLMs应用提供了宝贵的经验和方法。
以上内容由遇见数据集搜集并总结生成



