five

EC-Guide

收藏
github2024-07-29 更新2024-07-30 收录
下载链接:
https://github.com/fzp0424/EC-Guide-KDDUP-2024
下载链接
链接失效反馈
官方服务:
资源简介:
EC-Guide是一个专为电子商务场景设计的综合数据集,包含多种任务类型,如生成、多选题、检索、排序和命名实体识别等。数据集由人工创建或通过ChatGPT生成,涵盖了多个子任务,如产品详细描述、产品问答、类别识别等,共有74,704个示例。

EC-Guide is a comprehensive dataset specifically tailored for e-commerce scenarios, which encompasses a diverse range of task types including generation, multiple-choice question answering, retrieval, ranking, and named entity recognition. The dataset is created either manually or generated via ChatGPT, covering multiple subtasks such as product detailed descriptions, product Q&A, category recognition and so on, with a total of 74,704 examples.
创建时间:
2024-07-29
原始信息汇总

EC-Guide 数据集概述

数据集统计信息

任务类型 子任务 示例数量 来源
生成 产品详细说明 (PE) 479 ecinstruct
产品问答 (PQA) 6,834 amazonqa
类别识别 (CR) 1,000 amazonmetadata
解释成对时尚 (EPF) 3,000 PairwiseFashion
解释一起购买 (EBT) 2,315 IntentionQA
提取评论关键词 (ERK) 4,000 ecinstruct, PairwiseFashion
产品关键词摘要 (PKS) 1,296 esci, ecinstruct, amazonreview
评论标题摘要 (RTS) 1,455 amazonreview, Womens_Clothing_Reviews
多语言翻译 (MT) 2,997 amazon-m2, flores
多选题 (MCQ) 根据属性选择产品 (SPA) 520 ecinstruct
根据产品选择属性 (SAP) 1,385 amazonreview
产品关系预测 (PRP) 1,499 ecinstruct
查询产品关系预测 (QPRP) 2,150 esci
查询产品关系判断 (QPRJ) 501 ecinstruct
情感分析 (SA) 3,500 ecinstruct, Womens_Clothing_Reviews
产品关键词摘要 (PKS) 271 esci
多语言描述匹配 (MDM) 500 amazonreview
算术和常识推理 (ACR) 7,184 gsm8k, commonsenseqa
检索 推断潜在购买 (IPP) 10,774 ecinstruct, amazon-m2
检索评论片段 (RRS) 810 amazonreview
检索评论方面 (RRA) 1,000 amazonreview
类别识别 (CR) 7,500 amazonmetadata
产品识别 (PR) 2,297 amazonmetadata
排序 查询产品排序 (QPR) 4,008 esci
命名实体识别 (NER) 命名实体识别 (NER) 7,429 ecinstruct, amazonreview, product-attribute-extraction
总计 - 74,704 -

数据集来源

EC-Guide 数据集由人工创建或通过 ChatGPT 生成。数据来源包括:

搜集汇总
数据集介绍
main_image_url
构建方式
在构建EC-Guide数据集时,研究团队采用了多源数据融合的方法,结合了来自多个公开数据集的资源,如ECInstruct、amazonqa、PairFashionExplanation等。这些数据集涵盖了产品详细描述、问答、类别识别、时尚搭配解释等多个子任务。通过ChatGPT进行数据生成和手动创建,确保了数据集的多样性和高质量。此外,研究团队还引入了CoT(Chain of Thought)推理机制,以增强大语言模型在算术和常识推理方面的能力,从而提升整体性能。
使用方法
EC-Guide数据集适用于多种自然语言处理任务,包括但不限于产品详细描述生成、问答系统、类别识别、时尚搭配解释等。用户可以通过Hugging Face平台访问该数据集,并将其应用于模型训练和评估。为了充分利用数据集的多任务特性,建议用户在训练模型时采用多任务学习策略,以提升模型在电子商务场景中的综合表现。此外,数据集的CoT推理机制也为用户提供了优化模型推理能力的有效途径。
背景与挑战
背景概述
EC-Guide数据集由浙江大学AI4H团队在2024年Amazon KDD Cup竞赛中创建,专注于电子商务场景下的大语言模型(LLMs)应用。该数据集旨在通过多任务学习提升LLMs在电子商务中的表现,涵盖了产品描述、问题回答、分类识别、情感分析等多个子任务。EC-Guide的构建基于ChatGPT生成和人工创建的数据,整合了多个公开数据集,如ECInstruct、AmazonQA等,以确保数据的多样性和实用性。这一数据集的推出,标志着电子商务领域在利用先进AI技术提升用户体验方面迈出了重要一步。
当前挑战
EC-Guide数据集在构建过程中面临多重挑战。首先,数据集需涵盖广泛的任务类型,从生成到检索再到排序,这要求数据的高质量和多样性。其次,整合多个来源的数据集,确保数据的一致性和准确性,是一个技术难题。此外,如何在电子商务场景中有效应用LLMs,特别是在处理复杂的推理任务如算术和常识推理时,仍需进一步优化。最后,数据集的规模和复杂性对模型训练和推理提出了高要求,如何在有限的计算资源下实现高效训练和推理,是当前亟待解决的问题。
常用场景
经典使用场景
在电子商务领域,EC-Guide数据集被广泛应用于大型语言模型(LLMs)的指令调优和量化过程中。该数据集通过集成链式思维(CoT)推理,显著提升了LLMs在电子商务场景中的算术能力。具体而言,EC-Guide涵盖了从产品详细描述生成、产品问答、类别识别到多语言翻译等多个子任务,为模型提供了丰富的训练样本,从而在多个电子商务任务中实现了卓越的性能提升。
解决学术问题
EC-Guide数据集在学术研究中解决了多个关键问题,特别是在电子商务领域中,如何有效提升大型语言模型的推理能力和算术处理能力。通过引入链式思维推理,该数据集不仅增强了模型的逻辑推理能力,还显著提高了其在复杂电子商务任务中的表现。此外,EC-Guide的多任务特性为研究者提供了一个全面的平台,用于探索和优化LLMs在不同电子商务场景中的应用。
实际应用
在实际应用中,EC-Guide数据集被广泛用于优化电子商务平台的智能推荐系统、客户服务自动化以及产品描述生成等关键功能。通过利用该数据集训练的模型,电子商务平台能够更准确地理解用户需求,提供个性化的产品推荐,并自动生成高质量的产品描述和问答内容,从而显著提升用户体验和销售转化率。
数据集最近研究
最新研究方向
在电子商务领域,EC-Guide数据集的最新研究方向主要集中在大型语言模型(LLMs)在多任务在线购物挑战中的应用。研究者们通过构建综合的数据集和指令调优策略,显著提升了LLMs在电子商务场景中的表现。特别是,通过引入链式推理(CoT)技术,增强了LLMs的算术能力,从而在多个任务中取得了优异的成绩。此外,量化训练和推理优化也是当前研究的热点,旨在提高模型的效率和性能。这些研究不仅推动了电子商务领域的发展,也为其他相关领域的LLMs应用提供了宝贵的经验和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作