EC-Guide
收藏Hugging Face2024-07-30 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/AI4H/EC-Guide
下载链接
链接失效反馈官方服务:
资源简介:
EC-Guide数据集是为电子商务场景设计的,包含生成、多项选择题、检索、排序和命名实体识别等多个任务。该数据集由ChatGPT手动创建或生成,包含来自ECInstruct、amazonqa、productGraph、PairFashionExplanation、IntentionQA、Amazon-Reviews-2023、Shopping Queries Dataset (ESCI-data)、womens-ecommerce-clothing-reviews、amazon-m2、flores、gsm8k、commonsense_qa和product-attribute-extraction等多个来源的数据。
创建时间:
2024-07-30
原始信息汇总
数据集概述
许可证
- Apache 2.0
数据规模
- 10K < n < 100K
任务类别
- 问答
- 文本生成
- 翻译
语言
- 英语
- 中文
- 日语
- 德语
- 西班牙语
- 意大利语
- 法语
配置详情
生成任务
- Generation_PE
- 文件路径:
EC-Guide/Generation_PE.csv
- 文件路径:
- Generation_PQA
- 文件路径:
EC-Guide/Generation_PQA.csv
- 文件路径:
- Generation_CR
- 文件路径:
EC-Guide/Generation_CR.csv
- 文件路径:
- Generation_EPF
- 文件路径:
EC-Guide/Generation_EPF.csv
- 文件路径:
- Generation_EBT
- 文件路径:
EC-Guide/Generation_EBT.csv
- 文件路径:
- Generation_ERK
- 文件路径:
EC-Guide/Generation_ERK.csv
- 文件路径:
- Generation_EPK
- 文件路径:
EC-Guide/Generation_EPK.csv
- 文件路径:
- Generation_PKS
- 文件路径:
EC-Guide/Generation_PKS.csv
- 文件路径:
- Generation_RTS
- 文件路径:
EC-Guide/Generation_RTS.csv
- 文件路径:
- Generation_MT
- 文件路径:
EC-Guide/Generation_MT.csv
- 文件路径:
多项选择题任务
- Mcq_SPA
- 文件路径:
EC-Guide/Mcq_SPA.csv
- 文件路径:
- Mcq_SAP
- 文件路径:
EC-Guide/Mcq_SAP.csv
- 文件路径:
- Mcq_PRP
- 文件路径:
EC-Guide/Mcq_PRP.csv
- 文件路径:
- Mcq_QPRP
- 文件路径:
EC-Guide/Mcq_QPRP.csv
- 文件路径:
- Mcq_QPRJ
- 文件路径:
EC-Guide/Mcq_QPRJ.csv
- 文件路径:
- Mcq_SA
- 文件路径:
EC-Guide/Mcq_SA.csv
- 文件路径:
- Mcq_PKS
- 文件路径:
EC-Guide/Mcq_PKS.csv
- 文件路径:
- Mcq_MDM
- 文件路径:
EC-Guide/Mcq_MDM.csv
- 文件路径:
- Mcq_ACR
- 文件路径:
EC-Guide/Mcq_ACR.csv
- 文件路径:
检索任务
- Retrieval_IPP
- 文件路径:
EC-Guide/Retrieval_IPP.csv
- 文件路径:
- Retrieval_RRS
- 文件路径:
EC-Guide/Retrieval_RRS.csv
- 文件路径:
- Retrieval_RRA
- 文件路径:
EC-Guide/Retrieval_RRA.csv
- 文件路径:
- Retrieval_CR
- 文件路径:
EC-Guide/Retrieval_CR.csv
- 文件路径:
- Retrieval_PR
- 文件路径:
EC-Guide/Retrieval_PR.csv
- 文件路径:
排序任务
- Ranking_QPR
- 文件路径:
EC-Guide/Ranking_QPR.csv
- 文件路径:
命名实体识别任务
- Ner_NER
- 文件路径:
EC-Guide/Ner_NER.csv
- 文件路径:
数据统计
| 任务类型 | 子任务 | 示例数量 | 来源 |
|---|---|---|---|
| 生成 | Product Elaboration (PE) | 479 | ecinstruct |
| Product Question and Answer (PQA) | 6,834 | amazonqa | |
| Category Recognition (CR) | 1,000 | amazonmetadata | |
| Explaining Pair Fashion (EPF) | 3,000 | PairwiseFashion | |
| Explaining Bought Together (EBT) | 2,315 | IntentionQA | |
| Extract Review Keyphrase (ERK) | 1,000 | ecinstruct | |
| Extract Product Keyphrase (EPK) | 3,000 | PairwiseFashion | |
| Product Keyword Summarization (PKS) | 1,296 | esci, ecinstruct, amazonreview | |
| Review Title Summarization (RTS) | 1,455 | amazonreview, Womens_Clothing_Reviews | |
| Multilingual Translation (MT) | 2,997 | amazon-m2, flores | |
| 多项选择题 | Select Product based on Attribute (SPA) | 520 | ecinstruct |
| Select Attribute based on Product (SAP) | 1,385 | amazonreview | |
| Product Relation Prediction (PRP) | 1,499 | ecinstruct | |
| Query Product Relation Prediction (QPRP) | 2,150 | esci | |
| Query Product Relation Judgement (QPRJ) | 501 | ecinstruct | |
| Sentiment Analysis (SA) | 3,500 | ecinstruct, Womens_Clothing_Reviews | |
| Product Keyword Summarization (PKS) | 271 | esci | |
| Multilingual Description Matching (MDM) | 500 | amazonreview | |
| Arithmetic and Commonsense Reasoning (ACR) | 7,184 | gsm8k, commonsenseqa | |
| 检索 | Inferring Potential Purchases (IPP) | 10,774 | ecinstruct, amazon-m2 |
| Retrieving Review Snippets (RRS) | 810 | amazonreview | |
| Retrieving Review Aspects (RRA) | 1,000 | amazonreview | |
| Category Recognition (CR) | 7,500 | amazonmetadata | |
| Product Recognition (PR) | 2,297 | amazonmetadata | |
| 排序 | Query Product Ranking (QPR) | 4,008 | esci |
| 命名实体识别 | Named Entity Recognition (NER) | 7,429 | ecinstruct, amazonreview, product-attribute-extraction |
| 总计 | - | 74,704 | - |
数据来源
- ECInstruct
- amazonqa
- amazonmetadata
- PairFashionExplanation
- IntentionQA
- Amazon-Reviews-2023
- Shopping Queries Dataset (ESCI-data)
- womens-ecommerce-clothing-reviews
- amazon-m2
- flores
- gsm8k
- commonsense_qa
- product-attribute-extraction
搜集汇总
数据集介绍

构建方式
EC-Guide数据集的构建过程体现了多任务学习的复杂性与多样性。该数据集通过整合多个来源的数据,包括ECInstruct、amazonqa、PairFashionExplanation等,涵盖了电子商务领域的多种任务类型。数据集的构建不仅依赖于手动标注,还借助了ChatGPT等生成模型进行数据扩充,确保了数据的广泛性和深度。此外,数据集还特别引入了CoT(Chain-of-Thought)推理机制,以增强模型在算术和逻辑推理任务中的表现。
特点
EC-Guide数据集的特点在于其多语言支持和多任务覆盖。数据集涵盖了英语、中文、日语、德语、西班牙语、意大利语和法语等多种语言,适用于跨语言的自然语言处理任务。此外,数据集包含了从产品描述生成、问答系统到情感分析、命名实体识别等多种任务,共计74,704个样本,为电子商务领域的多任务学习提供了丰富的资源。数据集的设计还特别注重了任务的多样性和复杂性,旨在提升模型在实际应用中的泛化能力。
使用方法
EC-Guide数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以通过Hugging Face的`load_dataset`函数加载数据集,并根据具体任务选择相应的子数据集进行训练和评估。数据集中的每个子任务都经过精心设计,用户可以根据需求选择不同的任务类型进行实验。此外,数据集还提供了详细的统计信息和任务描述,帮助用户更好地理解数据分布和任务特点。通过合理使用该数据集,研究人员可以有效地提升模型在电子商务领域的表现。
背景与挑战
背景概述
EC-Guide数据集由浙江大学AI4H团队于2024年创建,旨在为电子商务场景中的多任务学习提供支持。该数据集涵盖了问答、文本生成、翻译等多种任务,涉及英语、中文、日语、德语、西班牙语、意大利语和法语等多语言环境。EC-Guide的核心研究问题在于如何通过指令微调和量化技术,提升大型语言模型(LLMs)在电子商务领域的应用效果。该数据集在Amazon KDD Cup 2024竞赛中表现突出,尤其在Track 2和Track 5中取得了优异成绩。其构建过程中,团队采用了启发式的链式思维(CoT)推理方法,显著提升了模型在算术推理任务中的表现。EC-Guide的发布为电子商务领域的自然语言处理研究提供了重要的数据支持,推动了该领域的技术进步。
当前挑战
EC-Guide数据集在构建和应用过程中面临多重挑战。首先,电子商务领域的多任务学习要求模型能够同时处理问答、文本生成、翻译等多样化任务,这对模型的泛化能力和任务适应性提出了极高要求。其次,数据集的构建涉及多个来源的数据整合,包括ECInstruct、amazonqa、PairFashionExplanation等,数据格式和语义的多样性增加了数据清洗和标注的复杂性。此外,多语言环境下的数据处理和模型训练也带来了额外的技术挑战,尤其是在低资源语言上的表现仍需进一步优化。最后,如何在保持模型性能的同时进行有效的量化处理,以减少计算资源消耗,也是该数据集应用中的一大难题。
常用场景
经典使用场景
EC-Guide数据集在电子商务领域的多任务学习中展现了其独特的价值。该数据集广泛应用于产品描述生成、问答系统、翻译任务以及情感分析等多个场景。特别是在产品问答和评论摘要生成任务中,EC-Guide通过丰富的多语言数据和多样化的任务配置,为模型提供了全面的训练环境,显著提升了模型在实际应用中的表现。
解决学术问题
EC-Guide数据集解决了电子商务领域中多任务学习的核心问题,尤其是在产品问答、评论摘要生成和情感分析等任务中。通过提供多样化的任务配置和丰富的多语言数据,该数据集为研究人员提供了一个统一的基准,帮助他们在模型训练和评估中取得更为准确的结果。此外,数据集中的启发式推理机制进一步增强了模型在算术和常识推理任务中的表现,推动了电子商务领域多任务学习的研究进展。
衍生相关工作
EC-Guide数据集衍生了一系列经典的研究工作,尤其是在电子商务领域的多任务学习和模型优化方面。基于该数据集的研究成果包括产品问答系统的优化、评论摘要生成算法的改进以及多语言翻译模型的提升。这些工作不仅在学术界引起了广泛关注,还在实际应用中取得了显著成效。此外,数据集中的启发式推理机制也为其他领域的多任务学习研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



