items_full
收藏Hugging Face2026-03-29 更新2026-03-30 收录
下载链接:
https://huggingface.co/datasets/npuli/items_full
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含结构化特征,主要字段包括标题(字符串类型)、类别(字符串类型)、价格(浮点数类型)、重量(浮点数类型)和摘要(字符串类型)。数据集分为训练集(800,000个样本)、验证集(10,000个样本)和测试集(10,000个样本),总大小约为425MB。数据以文件形式存储,分别对应不同的数据集划分。
创建时间:
2026-03-25
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: items_full
- 托管平台: Hugging Face
- 创建者: npuli
数据集结构与内容
特征字段
数据集包含以下8个特征字段:
- title: 数据类型为字符串(string)。
- category: 数据类型为字符串(string)。
- price: 数据类型为浮点数(float64)。
- full: 数据类型为空(null)。
- weight: 数据类型为浮点数(float64)。
- summary: 数据类型为字符串(string)。
- prompt: 数据类型为空(null)。
- id: 数据类型为空(null)。
数据划分
数据集被划分为三个部分:
- 训练集(train)
- 样本数量:800,000 条
- 数据大小:415,553,769 字节
- 验证集(validation)
- 样本数量:10,000 条
- 数据大小:5,190,031 字节
- 测试集(test)
- 样本数量:10,000 条
- 数据大小:5,196,606 字节
存储信息
- 下载大小: 241,604,807 字节
- 数据集总大小: 425,940,406 字节
配置信息
- 默认配置名称: default
- 数据文件路径:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
搜集汇总
数据集介绍

构建方式
在电子商务与商品信息管理领域,items_full数据集通过系统化采集与结构化处理构建而成。该数据集整合了商品标题、类别、价格、重量及摘要等多维度信息,形成了包含80万训练样本、1万验证样本与1万测试样本的规模。数据经过清洗与标准化,确保了字段的一致性与完整性,为机器学习模型提供了高质量的输入基础。
特点
items_full数据集展现出丰富的结构化特征,涵盖商品标题、类别、价格、重量和摘要等关键属性。其大规模样本分布与清晰的训练、验证、测试划分,为模型训练与评估提供了可靠支撑。数据字段设计兼顾实用性与扩展性,缺失值处理得当,适用于价格预测、分类任务及自然语言处理等多种应用场景。
使用方法
用户可通过HuggingFace平台直接加载items_full数据集,利用其预划分的训练、验证与测试集进行模型开发。该数据集适用于监督学习任务,如基于商品标题与类别的分类模型,或结合价格与重量的回归分析。数据字段清晰,便于特征工程与预处理,支持快速迭代与实验验证。
背景与挑战
背景概述
在电子商务与自然语言处理交叉领域,商品信息结构化与文本生成任务日益凸显其重要性。items_full数据集应运而生,旨在为商品标题、类别、价格、重量及摘要等多维度信息提供大规模标注样本,以支持自动化商品描述生成、分类系统优化及价格预测等核心研究。该数据集由匿名研究团队构建,包含80万训练样本及标准化验证测试集,其丰富特征为机器学习模型训练提供了坚实基础,推动了智能电商系统与语言模型应用的发展。
当前挑战
该数据集致力于解决商品信息自动化处理中的多模态理解与生成挑战,例如从结构化数据生成连贯商品摘要,或基于标题与类别进行精准价格预测。构建过程中,数据采集面临商品描述质量参差不齐、类别体系动态演变以及价格权重等数值字段的标准化难题,同时确保大规模数据标注的一致性与隐私保护亦构成显著障碍。
常用场景
经典使用场景
在电子商务与自然语言处理交叉领域,items_full数据集以其丰富的商品标题、类别、价格及摘要信息,为文本生成与分类任务提供了经典应用场景。研究者常利用该数据集训练模型,以自动生成商品描述或进行细粒度分类,从而模拟真实电商平台中商品信息处理流程。通过整合结构化与非结构化数据,该数据集支持端到端的机器学习实验,推动智能推荐与内容管理系统的优化。
解决学术问题
该数据集有效解决了商品信息自动化处理中的关键学术问题,如文本摘要的准确性与多样性平衡、多模态数据融合的表示学习挑战。它通过提供大规模标注样本,助力研究者探索序列到序列模型在商品描述生成中的性能边界,同时为跨类别价格预测等经济分析任务提供数据基础。其存在降低了电商领域研究的数据门槛,促进了计算语言学与商业智能的交叉创新。
衍生相关工作
围绕items_full数据集,衍生出多项经典研究工作,包括基于注意力机制的序列生成模型在商品标题摘要任务中的优化、跨领域迁移学习在商品分类中的应用探索。部分研究进一步结合图神经网络,挖掘商品类别间的隐含关系;另一些工作则聚焦于多任务学习框架,同步处理价格预测与文本生成。这些成果丰富了电商人工智能的理论体系,并为后续大规模预训练模型提供了微调基准。
以上内容由遇见数据集搜集并总结生成



