UCI Online Retail dataset

github2026-04-13 更新2026-04-17 收录

下载链接：

https://github.com/dreynow/omx-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

真实的电子商务交易数据。

Real e-commerce transaction data.

创建时间：

2026-04-13

原始信息汇总

omx-benchmark 数据集概述

数据集基本信息

数据集名称：omx-benchmark
核心用途：用于分析智能体基准测试，比较SQL生成与受管控指标的性能。
关键结果：在20个业务问题、每个问题3次迭代的测试中，实现了60/60的正确率，100%可靠性，0虚构答案。

数据集内容

源数据：UCI Online Retail数据集（真实电子商务交易数据）。
数据表详情：
- invoices：约45,000行，包含销售额、日期、国家的销售发票。
- customers：约6,000行，包含带有流失标志的客户记录。
- products：约5,000行，产品目录。
- invoice_items：约825,000行，包含数量和价格的订单行项目。
业务问题：包含20个业务问题，涵盖简单KPI、维度细分、时间序列、衍生计算、过滤聚合和多表连接等类型。每个问题均附带用于生成基准真值结果的黄金SQL。
问题文件：questions.yaml。

评估指标与方法

评估指标：
- 可靠性：正确答案数 / 总问题数。
- 覆盖率：已回答问题数 / 总问题数（智能体可能拒绝回答）。
- 虚构答案数：智能体返回看似合理但错误的数字（非拒绝、非错误）。
测试策略：
1. SQL基线：LLM接收完整数据库模式并从头生成SQL。
2. OM智能体：LLM通过预定义且经过测试的SQL调用query_metric，不编写SQL。
3. 带回退的OM智能体：首先尝试OM智能体，若指标不存在，则回退到带有IR上下文的LLM生成SQL。
4. OM IR上下文：LLM生成SQL，但接收OnlyMetrix编译的IR作为额外上下文。
评分方法：采用精确数据差异比较，包括列名无关匹配、1%数值容差、子集匹配和额外列容差。正确=精确匹配，错误=错误。

基准测试运行

前提条件：Python 3.10+、加载了UCI零售数据的PostgreSQL、运行的OnlyMetrix服务器、Anthropic API密钥。
运行命令示例： bash python run_bench.py --strategies sql omx_agent --model claude-sonnet-4-6 --iterations 3 --api-url http://localhost:3001
输出结果：结果保存至benchmark_results.json。

结果与比较

测试结果（2026年4月13日）：

策略可靠性覆盖率虚构答案数

SQL基线 70% 100% 18

OM智能体 100% 100% 0
完整报告：https://onlymetrix.com/blog/semantic-layer-benchmark

许可信息

许可证：MIT

搜集汇总

数据集介绍

构建方式

UCI Online Retail数据集源自真实的电子商务交易记录，其构建过程体现了对实际业务场景的忠实还原。该数据集通过整合销售发票、客户信息、产品目录及发票明细等多维度表格，形成了覆盖交易全流程的结构化数据。数据采集自实际零售业务系统，确保了原始数据的真实性与完整性，为后续的分析与建模提供了坚实的现实基础。

特点

该数据集的核心特点在于其真实性与复杂性。数据来源于真实的电子商务交易环境，而非专为测试设计的模拟数据，这使其能够准确反映实际业务中的模式与挑战。数据集包含约45,000张销售发票、6,000名客户记录、5,000种产品信息以及超过825,000条发票明细，涵盖了从交易金额、日期、国家到客户流失标志、产品分类等多重维度。这种多维度的数据结构为深入分析客户行为、销售趋势及产品表现提供了丰富的信息层次。

使用方法

使用该数据集时，通常需将其加载至PostgreSQL等SQL兼容的数据仓库中，以便进行高效的查询与分析。研究人员或开发者可通过预定义的业务问题模板，结合文本到SQL生成或基于语义层的度量查询等策略，对数据集进行探索。基准测试框架支持多种查询策略的比较，如直接生成SQL或调用预定义的度量接口，并通过精确的数据差异评分机制评估结果的准确性。用户可根据自身需求，灵活调整问题定义与度量配置，以适应不同的分析场景。

背景与挑战

背景概述

UCI在线零售数据集作为电子商务分析领域的重要基准，起源于加州大学欧文分校机器学习仓库，其创建旨在为交易数据分析提供真实且结构化的资源。该数据集收录了跨越数年的跨国零售业务记录，涵盖了客户交易、产品目录及发票明细等多维度信息，为研究消费者行为、销售预测及库存管理等问题奠定了数据基础。其广泛的应用不仅推动了推荐系统与客户细分算法的发展，也为学术界与工业界提供了评估模型性能的标准化测试平台，显著促进了数据挖掘与商业智能领域的交叉融合。

当前挑战

在电子商务数据分析领域，该数据集所应对的核心挑战在于从海量交易记录中精准提取商业洞察，如客户流失预测、收入趋势分析及产品关联规则挖掘，这些任务要求模型具备处理高维稀疏数据与时序依赖的能力。数据构建过程中，原始交易日志的异构性、缺失值处理及跨国货币与单位标准化构成了主要障碍，同时确保数据匿名化以保护客户隐私亦增加了预处理复杂度。此外，数据集的静态特性难以捕捉市场动态变化，限制了其在实时决策支持系统中的直接应用。

常用场景

经典使用场景

在电子商务与零售分析领域，UCI Online Retail数据集作为真实交易记录的典范，常被用于构建和评估商业智能系统。其经典使用场景包括通过SQL生成或语义层技术，自动化回答涉及总收入、客户细分、月度销售趋势及产品排名等关键业务问题。该数据集支撑了从简单指标计算到复杂多表关联的全面分析，为验证数据分析代理的准确性与可靠性提供了标准化的测试环境。

衍生相关工作

围绕该数据集衍生了一系列经典研究工作，包括dbt Labs开发的语义层与文本到SQL基准测试框架，以及OnlyMetrix提出的基于度量层的代理评估体系。这些工作深入比较了不同查询生成策略在准确性、覆盖率和虚构率上的差异，并推动了如Claire Gouze关于语义层效能提升的实证分析。相关成果为后续智能数据分析系统的设计确立了方法论基础，持续影响着自动化商业智能工具的发展方向。

数据集最近研究

策略	可靠性	覆盖率	虚构答案数
SQL基线	70%	100%	18
OM智能体	100%	100%	0