kindred-ecommerce-merchant-deals-dataset
收藏Hugging Face2025-05-02 更新2025-05-03 收录
下载链接:
https://huggingface.co/datasets/kindred-soul-ltd/kindred-ecommerce-merchant-deals-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Kindred电商商家促销数据集是一个为全球零售品牌设计的、结构化的、开元的电商商家促销信息和优惠数据集,特别适用于大型语言模型训练与微调、检索增强生成系统、机器学习推荐和搜索模型以及自然语言处理应用。该数据集包括来自各种在线零售商和市场的精选促销优惠,包含结构化的元数据,如优惠描述、兑换链接、品牌信息和地理位置标签。
创建时间:
2025-05-01
原始信息汇总
Kindred E-Commerce Merchant Deals Dataset 概述
基本信息
- 语言: 英文 (en)
- 许可证: CC-BY-4.0
- 数据集名称: Kindred E-Commerce Merchant Deals Dataset
- 数据规模: 1M<n<10M
- 标签:
- machine-learning
- llm-training
- rag
- retrieval-augmented-generation
- dataset
- e-commerce
- deals
- offers
- recommendation-system
- knowledge-graph
- retail-analytics
- promotion
- redeem-link
- public-dataset
- kindred
- discount
- consumer-insights
- vector-database
- 任务类别:
- text-retrieval
- question-answering
数据集描述
AI-ready catalogue of deals and offers for global retail brands. Structured in CSV and JSONL, validated against JSON Schema.
数据集文件
| 文件 | 行数 | 描述 |
|---|---|---|
data/csv/brands.csv 或 data/jsonl/brands.jsonl |
~90K | E-Commerce Merchant metadata, Logo URL, and domains |
data/csv/offers.csv 或 data/jsonl/offers.jsonl |
~4M | Offers with redeem_url, detailed summaries, and sample_q for RAG training |
主要特点
- RAG-optimized: Includes
sample_qfields designed for prompt engineering and RAG training - Multi-format: Available in both CSV and JSONL formats with validated JSON Schema
- Comprehensive metadata: Brand information, redemption URLs, and country codes
- Machine learning ready: Clean, normalized data across multiple retail verticals
- No PII: Contains no personally identifiable information
数据结构
- Brands: ~90K unique brands with identifiers, names, logo URLs, and associated domains
- Offers: ~4M offers with redemption URLs, detailed descriptions, and sample query patterns
许可证
Licensed under Creative Commons Attribution 4.0 International (CC BY 4.0).
联系方式
For questions, licensing, or partnership opportunities: help@kindredteam.com
搜集汇总
数据集介绍

构建方式
Kindred电子商务商户交易数据集通过系统化采集全球零售品牌的促销信息构建而成,采用双重结构化存储方案(CSV/JSONL)确保数据兼容性。数据集构建过程中严格遵循JSON Schema验证标准,涵盖约90,000个品牌元数据和400万条优惠条目,通过brand_id字段建立品牌与优惠间的关联关系,形成可用于知识图谱构建的完整数据体系。数据清洗流程特别注重消除个人身份信息,确保符合机器学习应用的隐私规范要求。
特点
该数据集专为现代AI应用场景设计,其突出特点体现在RAG优化架构上——每条优惠记录均包含预置的sample_q字段,为提示工程提供标准化训练素材。多维度元数据覆盖品牌标识、兑换链接、地域标签等关键信息,支持跨零售领域的联合分析。数据格式同时兼容传统机器学习管道和向量数据库系统,4M规模的优惠记录经过归一化处理,保持跨垂直领域的数据一致性。
使用方法
使用该数据集时,开发者可通过brands和offers两个核心数据表的关联查询构建推荐系统知识库。JSONL格式可直接接入LLM微调流程,其中预置的sample_q字段能快速构建RAG训练对。对于检索增强场景,建议将offer描述文本编码为嵌入向量,结合品牌元数据建立多层索引结构。数据集的CSV版本适合传统机器学习模型的特征工程,而JSON Schema验证机制可确保数据管道的稳定性。
背景与挑战
背景概述
Kindred E-Commerce Merchant Deals Dataset是由Kindred团队构建的一个面向全球零售品牌的电子商务交易数据集,专注于为机器学习和自然语言处理任务提供结构化数据支持。该数据集于近年发布,旨在通过提供丰富的促销活动和品牌元数据,推动推荐系统、检索增强生成(RAG)以及知识图谱等领域的研究与应用。数据集包含约90,000个品牌和400万条促销信息,涵盖品牌标识、优惠描述、兑换链接及地理标签等关键字段,为电子商务领域的消费者行为分析和智能推荐算法开发奠定了重要基础。
当前挑战
Kindred E-Commerce Merchant Deals Dataset面临的挑战主要体现在两个方面:领域问题层面,电子商务促销信息的动态性和多样性要求模型具备实时更新和泛化能力,以应对不断变化的消费者偏好和市场趋势;数据构建层面,如何确保全球范围内数据的准确性与一致性,以及处理多语言、多货币环境下的数据标准化问题,是数据集构建过程中的主要难点。此外,将非结构化的促销信息转化为适合机器学习任务的规范化数据,同时避免引入偏见或敏感信息,也是该数据集需要持续优化的方向。
常用场景
经典使用场景
在电子商务与零售分析领域,Kindred E-Commerce Merchant Deals Dataset以其结构化的全球商家促销数据,成为训练检索增强生成(RAG)系统的黄金标准。该数据集通过包含400万条带有赎回链接和样本查询的优惠信息,为开发者提供了构建智能推荐引擎的丰富素材,特别是在多轮对话系统中生成个性化促销内容时表现卓越。
解决学术问题
该数据集有效解决了电子商务研究中三个核心难题:跨品牌优惠信息的异构数据整合、基于自然语言查询的精准推荐算法优化,以及知识图谱构建中的实体关系挖掘。通过提供标准化品牌元数据和地理标记,研究者能够深入分析促销策略的空间分布规律,为消费者行为研究提供了前所未有的细粒度数据支撑。
衍生相关工作
基于该数据集衍生的经典研究包括《Knowledge Graph Enhanced RAG for E-Commerce Recommendations》(ACM SIGIR 2023),该工作创新性地将品牌关系图谱嵌入到检索管道中。另有多篇顶会论文利用其样本查询字段,开发了新型的对话式推荐框架,重新定义了人机交互在零售场景中的应用边界。
以上内容由遇见数据集搜集并总结生成



