E-commerce

Hugging Face2025-12-17 更新2025-12-18 收录

下载链接：

https://huggingface.co/datasets/cx-cmu/E-commerce

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个商业领域的电子商务数据集，发布用于生成引擎优化（GEO）研究。数据集包含多个配置：主数据集用于GEO训练和评估（约1.6k训练样本/400测试样本），规则候选数据集用于内容偏好规则提取（约1.6k样本），冷启动数据集用于AutoGEO Mini的监督微调（约500样本），推理数据集用于推理（约400样本），GRPO输入数据集用于GRPO训练（约1.6k样本），GRPO评估数据集用于评估GRPO训练模型（约1.6k样本）。数据集与AutoGEO项目相关，支持文本生成和生成式搜索等任务。

This is an e-commerce dataset in the business domain, released for Generative Engine Optimization (GEO) research. The dataset includes multiple subsets: the main subset is used for GEO training and evaluation, with approximately 1.6k training samples and 400 test samples; the rule candidate subset is for content preference rule extraction, containing about 1.6k samples; the cold-start subset is for supervised fine-tuning of AutoGEO Mini, with roughly 500 samples; the inference subset is for inference tasks, with around 400 samples; the GRPO input subset is for GRPO training, containing approximately 1.6k samples; and the GRPO evaluation subset is for evaluating GRPO-trained models, with about 1.6k samples. This dataset is associated with the AutoGEO project and supports tasks such as text generation and generative search.

创建时间：

2025-12-13

原始信息汇总

E-commerce Dataset (AutoGEO) 概述

数据集简介

这是一个用于生成引擎优化（GEO）研究的商业领域数据集，随AutoGEO项目发布。

核心信息

许可证: mit
任务类别: 文本生成
标签: 生成式搜索、geo、autogeo、电子商务、llm、强化学习

数据集配置

数据集包含六个不同的配置，每个配置对应特定的用途和样本量：

main: 用于GEO训练和评估的主要训练/测试数据（约1.6k训练样本 / 约400测试样本）
rule_candidate: 用于内容偏好规则提取的数据（约1.6k样本）
cold_start: 用于AutoGEO Mini监督微调的数据（约500样本）
inference: 仅用于推理的数据（约400样本）
grpo_input: 用于GRPO训练的输入数据（约1.6k样本）
grpo_eval: 用于评估GRPO训练模型的数据（约1.6k样本）

引用格式

bibtex @article{wu2025generative, title={What Generative Search Engines Like and How to Optimize Web Content Cooperatively}, author={Wu, Yujiang and Zhong, Shanshan and Kim, Yubin and Xiong, Chenyan}, journal={arXiv preprint arXiv:2510.11438}, year={2025} }

搜集汇总

数据集介绍

构建方式

在电子商务与生成式搜索引擎优化领域，E-commerce数据集作为AutoGEO框架的核心组成部分，其构建过程体现了严谨的学术设计。该数据集通过精心策划的配置划分，涵盖了训练、测试、规则提取、冷启动、推理及强化学习等多个专门化子集。数据以Parquet格式存储，确保了高效的数据处理与访问。每个子集均针对生成式搜索引擎优化研究中的特定任务而设计，例如main配置提供了约1600条训练样本与400条测试样本，为模型训练与评估奠定了坚实基础。这种模块化的构建方式使得研究者能够灵活地针对不同实验阶段选取相应数据，支撑从内容偏好分析到策略优化的全流程研究。

特点

E-commerce数据集展现出多维度、任务导向的鲜明特点。其核心特征在于提供了六个高度专业化的配置，分别服务于生成式搜索引擎优化研究的不同环节，如规则候选生成、冷启动微调、推理以及基于GRPO的强化学习训练与评估。数据集紧密围绕电子商务领域的内容生成与优化需求，标签体系涵盖了生成式搜索、地理信息、自动优化及大型语言模型等前沿方向。这种结构不仅促进了跨任务的可比性，也为深入探究生成式搜索引擎的内容偏好与协同优化机制提供了丰富、立体的实验素材，具有显著的领域针对性与方法学启发性。

使用方法

为有效利用该数据集进行研究，用户需依据具体实验目标选择相应的配置。例如，进行基础的生成式搜索引擎优化模型训练与测试，应加载‘main’配置；若需提取内容偏好规则，则可调用‘rule_candidate’子集。对于涉及强化学习策略优化的研究，‘grpo_input’与‘grpo_eval’配置分别提供了训练输入与评估数据。数据集通过HuggingFace平台提供，支持标准的管道加载方式，研究者可便捷地访问不同分割的数据文件。遵循提供的引用规范，并在工作中引述关联的学术论文，是确保研究可复现性与学术严谨性的必要步骤。

背景与挑战

背景概述

随着生成式搜索引擎的兴起，如何优化网络内容以适配其偏好成为信息检索领域的前沿课题。2025年，由Yujiang Wu、Shanshan Zhong、Yubin Kim和Chenyan Xiong等研究人员共同构建的E-commerce数据集应运而生，作为AutoGEO框架的核心组成部分，该数据集旨在探索生成式引擎优化（GEO）的协同机制。其核心研究问题聚焦于理解生成式搜索引擎的内容偏好，并据此设计有效的优化策略，从而提升电子商务等领域网络内容的可见性与相关性，对推动个性化搜索与智能内容生成技术的融合发展具有显著影响力。

当前挑战

该数据集致力于解决生成式搜索引擎优化这一新兴领域的核心挑战，即如何系统性地建模并满足生成式模型对内容的结构化、语义化偏好，以超越传统关键词匹配的局限。在构建过程中，研究人员面临多重挑战：需从真实电子商务场景中采集并标注大规模、高质量的多模态交互数据，确保数据能精准反映用户意图与引擎反馈；同时，设计涵盖规则提取、冷启动、强化学习等多种配置的数据子集，以支持复杂的端到端优化流程，这要求数据架构兼具灵活性与一致性，以应对模型训练与评估的多样化需求。

常用场景

经典使用场景

在电子商务与信息检索交叉领域，生成式搜索引擎优化（GEO）研究正成为提升在线内容可见性的前沿方向。E-commerce数据集作为AutoGEO框架的核心组成部分，其经典使用场景聚焦于训练和评估生成式搜索模型对电商领域内容的偏好与排序能力。研究人员利用该数据集的主配置（main）进行模型训练与测试，通过分析商品描述、用户查询及生成式搜索反馈，优化内容生成策略，以模拟真实搜索引擎对电商信息的检索与呈现逻辑。

实际应用

在实际应用层面，E-commerce数据集能够直接服务于电子商务平台的内容优化与搜索引擎营销。企业可利用基于该数据集训练的模型，自动生成或改写商品描述、标题等元数据，使其更符合生成式搜索引擎的偏好，从而提升产品在生成式搜索结果中的排名与曝光度。这不仅有助于降低人工优化成本，还能适应快速变化的搜索算法，为电商运营提供数据驱动的智能内容策略。

衍生相关工作

围绕E-commerce数据集衍生的经典工作主要包括AutoGEO框架及其相关方法。例如，研究团队利用rule_candidate配置进行内容偏好规则挖掘，通过cold_start数据实现模型快速适配，并借助grpo_input与grpo_eval开展基于群体策略优化的强化学习训练。这些工作系统探索了协同优化网页内容的可行路径，为后续生成式搜索优化研究提供了可复现的基准与模块化工具，促进了该领域方法论的持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集