five

ChineseEcomQA

收藏
arXiv2025-02-27 更新2025-03-01 收录
下载链接:
https://github.com/OpenStellarTeam/ChineseEcomQA
下载链接
链接失效反馈
官方服务:
资源简介:
ChineseEcomQA是由阿里巴巴团队构建的一个面向电子商务领域的大型语言模型概念评估基准数据集。该数据集聚焦于电子商务基础概念,涵盖20个主要行业和10个核心概念维度,包含1800个经过精心策划的问题回答对。数据集通过结合大型语言模型验证、检索增强生成验证和严格的人工标注等构建过程,确保了数据集在电子商务领域的普适性和专业性。该数据集旨在解决电子商务应用中大型语言模型领域能力评估的问题,为电子商务应用中的模型能力评估提供标准化的测试平台。

ChineseEcomQA is a benchmark dataset for large language model (LLM) conceptual evaluation in the e-commerce domain, constructed by the Alibaba team. Focusing on basic e-commerce concepts, this dataset covers 20 major industries and 10 core conceptual dimensions, and includes 1800 carefully curated question-answer pairs. Its construction process integrates LLM validation, retrieval-augmented generation (RAG) validation, and strict manual annotation, ensuring the dataset's universality and professionalism within the e-commerce domain. This dataset aims to address the issue of LLM capability evaluation in e-commerce applications, providing a standardized test platform for model capability assessment in e-commerce scenarios.
提供机构:
阿里巴巴
创建时间:
2025-02-27
搜集汇总
数据集介绍
main_image_url
构建方式
ChineseEcomQA的构建基于三个核心特点:关注基础概念、电子商务普遍性和电子商务专业知识。首先,通过收集大量知识丰富的电子商务语料库,并利用LLM(例如GPT-4o)生成问题-答案对。然后,使用LLM验证问题-答案对的基本质量,确保问题清晰、答案客观唯一,且不随时间变化。接着,利用外部检索工具(如网络搜索引擎)和电子商务搜索引擎对数据进行电子商务普遍性和专业知识的验证。最后,通过人工标注对数据进行最终的质量控制。
特点
ChineseEcomQA数据集具有以下特点:涵盖20个主要行业和10个核心概念维度,包含1800个精心策划的问题-答案对;采用简洁统一的格式,易于评估且评估成本相对较低;评价标准明确,包括正确、错误和未尝试三种类型,确保评估的客观性。
使用方法
使用ChineseEcomQA数据集进行评估时,首先需要准备一个LLM作为判断模型,例如GPT-4o、Claude-3.5-Sonnet和DeepseekV3。然后,根据问题、候选答案和参考答案,使用判断模型进行评估。判断模型根据候选答案是否完全包含参考答案且不引入任何矛盾元素来决定最终的评价结果。
背景与挑战
背景概述
随着大型语言模型(LLMs)在电子商务等领域的广泛应用,针对特定领域的概念评估基准显得尤为重要。现有的LLMs在处理复杂的电子商务应用时可能会生成事实错误的信息。为了解决这一问题,阿里巴巴淘宝和天猫团队提出了ChineseEcomQA,一个可扩展的问答基准,专注于基本的电子商务概念。ChineseEcomQA于2025年由阿里巴巴淘宝和天猫团队创建,旨在评估LLMs在电子商务领域的知识能力。该数据集具有三个核心特点:关注基本概念、电子商务普遍性和电子商务专业知识。ChineseEcomQA的创建填补了现有基准的空白,并为未来特定领域的评估提供了指导,促进了LLMs在电子商务应用中的更广泛采用。
当前挑战
ChineseEcomQA面临的主要挑战包括处理电子商务任务的异构性和多样性,以及区分电子商务领域的普遍性和专业性。为了构建一个可扩展的电子商务知识基准,需要解决以下两个特定挑战:1) 异构性和多样性:电子商务领域涵盖了广泛的任务格式,不同场景下的定义差异显著。例如,理解用户查询包括查询错误纠正、查询标记等过程。2) 区分普遍性和专业性:电子商务知识虽然与一般世界知识交叉,但需要高度的专业知识。解决实际的电子商务问题需要将特定领域的知识与一般知识相结合。为了应对这些挑战,ChineseEcomQA采用了结合LLM验证、检索增强生成(RAG)验证和严格人工注释的可扩展基准构建过程,确保了其三个核心特点的实现。
常用场景
经典使用场景
ChineseEcomQA数据集旨在评估大型语言模型(LLMs)在电子商务领域的基本概念理解能力。该数据集通过提供一系列精心设计的问答对,涵盖了电子商务行业的各个核心概念,如行业分类、行业概念、类别概念、品牌概念、属性概念、口语概念、意图概念、评论概念、相关性概念和个人化概念。通过这些问答对,研究者可以评估LLMs在处理电子商务任务时的准确性和事实性,从而提高LLMs在电子商务领域的应用效果。
解决学术问题
ChineseEcomQA数据集解决了电子商务领域中LLMs事实性评估的难题。现有LLMs在电子商务应用中可能生成包含事实错误的信息,使得难以系统地评估其事实能力。ChineseEcomQA数据集通过关注电子商务领域的基本概念,并平衡电子商务的普遍性和专业性,有效地解决了电子商务领域中LLMs事实性评估的难题。此外,ChineseEcomQA数据集还揭示了LLMs在处理电子商务概念时的挑战和局限,为电子商务领域中LLMs的应用提供了有价值的见解。
衍生相关工作
ChineseEcomQA数据集的提出和构建,为电子商务领域中LLMs的事实性评估提供了重要的参考和借鉴。在此基础上,研究者可以进一步探索电子商务领域中LLMs的应用,例如开发针对电子商务领域的专用LLMs,或者改进现有LLMs在电子商务领域的性能。此外,ChineseEcomQA数据集还可以用于其他领域的事实性评估,例如医疗、金融等。因此,ChineseEcomQA数据集的提出和构建,对于电子商务领域中LLMs的研究和应用具有重要的推动作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作