external-benchmarking

Hugging Face2025-09-09 更新2025-09-10 收录

下载链接：

https://huggingface.co/datasets/superlinked/external-benchmarking

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含商品信息的数据集，其中包括商品的父级ASIN、数值、主要类别、标题、平均评分、评分数量、描述、价格、类别和图片URL等字段。数据集分为训练集，共有100000个示例，数据大小为3482499106字节。

创建时间：

2025-09-05

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
总下载大小: 2,309,398,330 字节
总数据集大小: 3,482,499,106 字节
训练集样本数量: 100,000

特征结构

parent_asin: 字符串类型
value: 浮点数列表类型
main_category: 字符串类型
title: 字符串类型
average_rating: 浮点数类型
rating_number: 浮点数类型
description: 字符串类型
price: 浮点数类型
categories: 字符串类型
image_url: 字符串类型

数据拆分

训练集: 包含 100,000 个样本，占用 3,482,499,106 字节

配置文件

默认配置: 训练集数据文件路径为 data/train-*

搜集汇总

数据集介绍

构建方式

在电子商务数据分析领域，external-benchmarking数据集通过系统化采集亚马逊平台商品信息构建而成。其构建过程整合了商品基础属性与用户行为数据，涵盖商品唯一标识符、多维度数值特征、分类层级文本描述及图像链接等结构化字段，采用分布式存储架构确保海量数据的完整性与可访问性。

特点

该数据集呈现多模态融合特性，既包含数值型评分与价格指标，又囊括文本描述与分类标签，同时关联外部图像资源。十万条样本覆盖多元商品类别，每条记录均包含从宏观分类到微观描述的完整信息层级，为跨模态学习与商业智能分析提供丰富的数据基础。

使用方法

研究者可通过加载标准数据分割配置直接获取训练集，利用parent_asin字段实现商品实体关联，结合数值特征与文本描述构建推荐系统或价格预测模型。图像URL字段支持跨模态分析，而分类标签体系可用于层次化分类任务，所有数据均符合常规表格数据处理流程。

背景与挑战

背景概述

external-benchmarking数据集诞生于电子商务与自然语言处理交叉研究蓬勃发展的时代，由匿名研究团队基于Apache 2.0协议构建。该数据集聚焦于多模态商品信息理解与跨领域推荐系统的核心研究问题，通过整合商品标题、描述、评分、价格及图像等多维度特征，为机器学习模型提供真实场景下的基准测试环境。其十万条精心标注的样本数据，显著推进了跨模态表征学习与个性化推荐算法的研究进程，成为衡量模型泛化能力的重要标尺。

当前挑战

该数据集致力于解决电子商务领域多模态数据融合与跨域推荐系统的复杂性挑战，包括异构数据对齐、语义鸿沟 bridging 及长尾商品冷启动等问题。构建过程中面临多源数据集成、跨模态特征标准化、大规模图像文本匹配以及隐私信息脱敏等技术难点，需克服数据稀疏性与噪声干扰，确保标注一致性与时空有效性，这对数据清洗与质量验证机制提出了极高要求。

常用场景

经典使用场景

在电子商务与推荐系统研究领域，external-benchmarking数据集通过整合商品元数据、用户评分及价格等多维特征，为算法性能评估提供了标准化测试平台。该数据集常被用于训练和验证协同过滤、深度学习推荐模型，尤其在跨品类推荐和冷启动问题中展现出色适用性，成为衡量模型泛化能力的重要基准。

衍生相关工作

基于该数据集衍生的经典工作包括基于图神经网络的跨域推荐模型、多任务学习评分预测框架，以及结合图像与文本特征的多模态推荐系统。这些研究不仅推动了Amazon、Netflix等平台的算法迭代，也为ACMMM、RecSys等顶级会议提供了多项获奖论文的实证基础。

数据集最近研究