Kindred E-commerce Merchant Deals Dataset

github2025-05-01 更新2025-05-02 收录

下载链接：

https://github.com/kindred-app/kindred-ecommerce-merchant-deals-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个结构化、开放访问的全球电子商务商家交易和优惠数据集，专为LLM训练和微调、检索增强生成（RAG）系统、推荐和搜索的机器学习模型以及自然语言处理应用而设计。该数据集包括来自各种在线零售商和市场策划的促销优惠，具有结构化的元数据，包括优惠描述、兑换URL、品牌信息和地理定位标签。

A structured, openly accessible global e-commerce merchant transaction and promotion dataset, designed specifically for LLM training and fine-tuning, retrieval-augmented generation (RAG) systems, machine learning models for recommendation and search, and natural language processing applications. This dataset includes promotional offers curated from various online retailers and marketplaces, with structured metadata including offer descriptions, redemption URLs, brand information, and geolocation tags.

创建时间：

2025-05-01

原始信息汇总

Kindred E-commerce Merchant Deals Dataset 概述

数据集基本信息

名称: Kindred E-commerce Merchant Deals Dataset
类型: 电子商务商家交易和优惠数据集
格式: CSV 和 JSONL
数据验证: 通过 JSON Schema 验证
许可: CC-BY-4.0
最后更新: 通过 GitHub 最后提交时间显示
数据量: 约4M条优惠信息

数据集文件

文件路径	行数	描述
`data/csv/brands.csv` 或 `data/jsonl/brands.jsonl`	~90K	电子商务商家元数据、Logo URL 和域名
`data/csv/offers.csv` 或 `data/jsonl/offers.jsonl`	~4M	包含赎回URL、详细摘要和用于RAG训练的`sample_q`的优惠信息

数据集设计用途

LLM训练和微调
检索增强生成（RAG）系统
推荐和搜索的机器学习模型
自然语言处理应用

关键特性

RAG优化: 包含为提示工程和RAG训练设计的sample_q字段
多格式支持: 提供CSV和JSONL格式，并经过JSON Schema验证
全面的元数据: 包括品牌信息、赎回URL和国家代码
机器学习就绪: 跨多个零售领域的干净、规范化数据
无PII: 不包含任何个人身份信息

数据结构

品牌数据: 约90K个独特品牌，包含标识符、名称、Logo URL和相关域名
优惠数据: 约4M条优惠，包含赎回URL、详细描述和样本查询模式

关键词

machine-learning, llm-training, rag, retrieval-augmented-generation, dataset, e-commerce, deals, offers, recommendation-system, knowledge-graph, retail-analytics, promotion, redeem-link, public-dataset, kindred, discount, consumer-insights, vector-database

联系方式

如有问题、许可或合作机会，请联系: help@kindredteam.com

搜集汇总

数据集介绍

构建方式

在电子商务数据智能化的背景下，Kindred E-commerce Merchant Deals Dataset通过系统化采集全球零售品牌促销信息构建而成。数据集采用分布式爬虫技术从公开渠道获取原始数据，经过多轮清洗和标准化处理，确保数据的一致性和准确性。所有记录均通过JSON Schema验证，并采用CSV与JSONL双格式存储，便于不同技术栈的研究者使用。品牌数据与优惠数据通过brand_id建立关联，形成完整的知识图谱结构。

特点

该数据集作为AI就绪型零售促销目录，具有鲜明的技术适配特征。其4百万条优惠记录包含赎回链接、详细描述及RAG训练专用的sample_q字段，支持检索增强生成系统的开发。90K品牌数据提供商标URL、域名等元信息，与优惠数据构成多维关系网络。数据经过严格的匿名化处理，不含个人隐私信息，且涵盖服装、电子、家居等全零售品类，为机器学习模型提供跨垂直领域的干净数据源。

使用方法

研究者可通过GitHub仓库获取CSV或JSONL格式的原始数据，利用内置的JSON Schema进行数据验证。对于检索增强生成场景，建议优先使用包含sample_q字段的offers数据表构建提示工程。品牌与优惠的关联关系适用于知识图谱构建，而标准化元数据可直接用于推荐系统特征工程。数据加载时需注意处理多国语言描述字段，建议采用UTF-8编码。商业应用需遵守CC-BY-4.0协议要求署名。

背景与挑战

背景概述

Kindred E-commerce Merchant Deals Dataset是由Kindred团队构建的一个专注于全球零售品牌促销活动的结构化数据集，旨在为电子商务领域的机器学习和自然语言处理研究提供高质量的数据支持。该数据集收录了约90,000个品牌和400万条促销信息，涵盖了丰富的元数据，如品牌标识、促销描述、兑换链接以及地理位置标签。其核心研究问题聚焦于如何利用大规模促销数据优化推荐系统、搜索算法以及检索增强生成（RAG）模型的性能。该数据集以其多格式支持（CSV和JSONL）和严格的JSON Schema验证，显著提升了电子商务领域数据驱动的AI应用开发效率。

当前挑战

Kindred E-commerce Merchant Deals Dataset面临的挑战主要体现在两个方面。其一，在领域问题层面，如何从海量促销信息中提取有效的语义特征以支持精准的推荐和搜索，尤其是在多语言和跨地域场景下的数据异构性问题。其二，在数据构建过程中，确保促销信息的实时性和准确性是一大难点，因为电子商务领域的促销活动更新频繁且时效性强。此外，数据清洗和归一化工作也面临挑战，尤其是品牌名称和促销描述的标准化处理，以及避免重复或过时信息的混入。

常用场景

经典使用场景

Kindred E-commerce Merchant Deals Dataset作为全球零售品牌促销活动的结构化数据集，其经典使用场景主要集中在电子商务领域的智能推荐系统和自然语言处理任务中。该数据集为研究人员提供了丰富的商家优惠信息，包括详细的促销描述和品牌元数据，使其成为训练和优化大型语言模型（LLM）的理想选择。在检索增强生成（RAG）系统中，该数据集的`sample_q`字段能够有效支持提示工程和上下文检索任务，显著提升模型对用户查询的理解和响应能力。

解决学术问题

该数据集解决了电子商务研究中多个关键学术问题，包括如何构建高质量的推荐系统、如何优化自然语言处理模型对促销文本的理解能力，以及如何实现跨品牌的知识图谱构建。通过提供超过400万条结构化优惠数据和9万条品牌元数据，研究人员能够深入分析消费者行为模式、品牌营销策略以及跨地域的促销趋势。这些数据为机器学习模型在电子商务领域的性能评估和比较提供了标准化基准，推动了推荐算法和语义理解技术的进步。

衍生相关工作

基于Kindred数据集已衍生出多项重要研究工作，包括基于知识图谱的跨品牌推荐系统、结合大语言模型的智能购物对话系统，以及面向多模态数据的促销活动分析框架。部分研究团队利用该数据集构建了端到端的RAG管道，显著提升了电商场景下的问答系统性能。另有学者将其与用户行为数据结合，开发了新型的消费意图预测模型。这些工作共同推动了电子商务智能化研究的前沿发展，并为产业实践提供了可靠的技术方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集