amazon-arabic-catalogue-v2

Hugging Face2026-02-05 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/metga97/amazon-arabic-catalogue-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含阿拉伯语电子商务产品列表，配有教师生成的结构化JSON标签，旨在训练和评估输出符合模式的产品结构的小型语言模型（SLMs）。每个示例包括构建的`input_text`（阿拉伯语标题/描述及可选元数据）和`pred_json`标签，描述产品身份（品牌/类型/名称）、属性（颜色/材料）、包装（包装数量和净含量）、SEO关键词以及元置信度/警告。数据集适用于训练SLMs从阿拉伯语产品文本生成结构化电子商务JSON，评估结构化提取在保留验证和测试集上的表现，并通过`quality_tier_v2`和`warnings`进行课程学习或质量控制。标签由教师LLM使用模式引导的JSON生成（结构化输出）生成。数据分为训练集（24,000条）、验证集（3,008条）和测试集（3,008条）。

This dataset comprises Arabic e-commerce product listings paired with teacher-generated structured JSON labels, intended for training and evaluating small language models (SLMs) that produce structured product outputs aligned with predefined schemas. Each sample includes a constructed `input_text` (Arabic title/description with optional metadata) and a `pred_json` label that covers product identity (brand/type/name), attributes (color/material), packaging (packaging quantity and net content), SEO keywords, as well as meta confidence scores and warnings. The dataset is applicable for training SLMs to generate structured e-commerce JSON from Arabic product text, evaluating the performance of structured extraction on the held-out validation and test sets, as well as conducting curriculum learning or quality control using `quality_tier_v2` and `warnings`. The labels are generated by a teacher LLM via schema-guided JSON generation (structured output). The dataset is split into a training set (24,000 samples), a validation set (3,008 samples), and a test set (3,008 samples).

创建时间：

2026-02-05

搜集汇总

数据集介绍

构建方式

在电子商务信息结构化处理的背景下，该数据集通过教师大语言模型生成结构化标签的方式构建。具体而言，模型依据预设的JSON模式，对阿拉伯语产品列表进行解析，自动生成包含产品身份、属性、包装及元数据等字段的结构化标签。数据来源于真实的阿拉伯语电商产品标题与描述，并辅以可选元数据，形成了输入文本与预测JSON的配对。整个过程采用模式引导的生成方法，确保了输出符合预定义的模式规范，同时通过质量层级和警告字段为后续的数据筛选提供了依据。

使用方法

该数据集主要用于训练小型语言模型，使其能够从阿拉伯语产品文本中生成符合模式的结构化JSON输出。用户可首先利用训练集进行模型训练，随后通过验证集调整超参数，最终在测试集上评估结构化提取的性能。数据集中提供的质量层级和警告字段可用于筛选高质量样本，支持课程学习策略或数据质量控制。在实际应用中，开发者应关注阿拉伯语混合书写形式带来的挑战，并依据元数据中的警告信号优化模型处理能力，以提升在真实电商场景中的泛化效果。

背景与挑战

背景概述

随着电子商务在中东及北非地区的蓬勃发展，阿拉伯语商品数据的结构化处理成为自然语言处理领域的重要研究方向。亚马逊阿拉伯语目录第二版数据集由相关研究机构于近期创建，旨在通过教师生成的结构化JSON标签，为小型语言模型提供高质量的阿拉伯语电商产品文本到结构化数据的训练资源。该数据集聚焦于从阿拉伯语商品标题与描述中自动提取品牌、类型、属性及包装信息等核心要素，其构建不仅推动了阿拉伯语信息抽取技术的发展，也为多语言电商应用中的结构化数据生成提供了关键基准，对提升跨语言电子商务系统的自动化水平具有显著影响力。

当前挑战

该数据集致力于解决阿拉伯语电商产品文本的结构化信息抽取问题，其核心挑战在于阿拉伯语本身的形态复杂性、词汇变体丰富以及混合文字脚本（如拉丁字母品牌名）的普遍存在，这些因素增加了模型准确识别与归一化实体属性的难度。在构建过程中，研究人员面临标注一致性与质量控制的挑战，尽管采用教师大型语言模型生成结构化标签以提升效率，但需依赖启发式警告信号进行数据过滤，且混合脚本的处理要求模型具备鲁棒的跨脚本理解能力，以确保生成JSON模式的高度合规性与实用性。

常用场景

经典使用场景

在阿拉伯语电子商务领域，产品信息的结构化处理是提升数据可用性和自动化水平的关键环节。该数据集通过提供教师生成的JSON标签，为小型语言模型训练提供了精准的监督信号，使其能够从阿拉伯语产品标题和描述中自动提取品牌、类型、属性、包装等结构化信息，从而实现高效的产品目录构建与标准化。

解决学术问题

该数据集主要解决了阿拉伯语自然语言处理中结构化信息提取的学术挑战。传统方法在处理阿拉伯语混合脚本和复杂产品描述时往往精度有限，而本数据集通过schema引导的JSON生成，为模型训练提供了高质量标注，促进了小参数语言模型在低资源语言场景下的性能优化，并为多语言电子商务信息标准化研究提供了可靠基准。

实际应用

在实际电子商务运营中，该数据集支持自动化产品上架、库存管理和搜索引擎优化。通过训练模型解析阿拉伯语产品文本，企业能够快速将非结构化描述转化为统一格式，减少人工标注成本，提升跨境商品目录的本地化效率，并为个性化推荐和价格监控等下游应用提供结构化数据基础。

数据集最近研究