five

TrainingDataPro/asos-e-commerce-dataset

收藏
Hugging Face2024-04-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TrainingDataPro/asos-e-commerce-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-nd-4.0 task_categories: - text-classification language: - en tags: - code - finance --- # [Asos](https://asos.com) E-Commerce Dataset - 30,845 products, text classification dataset Using web scraping, we collected information on over **30,845** clothing items from the Asos website. The dataset can be applied in E-commerce analytics in the fashion industry. The dataset is similar to [SheIn E-Commerce Dataset](https://www.kaggle.com/datasets/trainingdatapro/shein-e-commerce-dataset). # 💴 For Commercial Usage: To discuss your requirements, learn about the price and buy the dataset, leave a request on **[TrainingData](https://trainingdata.pro/datasets/marketplace-scraping-data?utm_source=huggingface&utm_medium=cpc&utm_campaign=asos-e-commerce-dataset)** to buy the dataset # Dataset Info For each item, we extracted: - **url** - link to the item on the website - **name** - item's name - **size** - sizes available on the website - **category** - product's category - **price** - item's price - **color** - item's color - **SKU** - unique identifier of the item - **date** - date of web scraping; for all items - March 11, 2023 - **description** - additional description, including product's brand, composition, and care instructions, in JSON format - **images** - photographs from the item description # 💴 Buy the Dataset: Leave a request on **[https://trainingdata.pro/datasets](https://trainingdata.pro/datasets/marketplace-scraping-data?utm_source=huggingface&utm_medium=cpc&utm_campaign=asos-e-commerce-dataset)** to discuss your requirements, learn about the price and buy the dataset **[TrainingData](https://trainingdata.pro/datasets/marketplace-scraping-data?utm_source=huggingface&utm_medium=cpc&utm_campaign=asos-e-commerce-dataset)** provides high-quality data annotation tailored to your needs. More datasets in TrainingData's Kaggle account: **https://www.kaggle.com/trainingdatapro/datasets** TrainingData's GitHub: **https://github.com/Trainingdata-datamarket/TrainingData_All_datasets** *keywords: web scraping dataset, dataset marketplace, web scraping data, e-commerce dataset, e-commerce marketplace, e-commerce marketplace scraping dataset, e-commerce sales dataset, ecommerce clothing site, e-commerce user behavior dataset, e-commerce text dataset, e-commerce product dataset, text dataset, ratings, product recommendation, text classification, text mining dataset, text data*
提供机构:
TrainingDataPro
原始信息汇总

数据集概述

基本信息

  • 名称: Asos E-Commerce Dataset
  • 大小: 30,845 产品
  • 任务类别: 文本分类
  • 语言: 英语
  • 标签: 代码, 金融
  • 许可证: cc-by-nc-nd-4.0

数据集内容

  • url: 产品网页链接
  • name: 产品名称
  • size: 可用尺寸
  • category: 产品类别
  • price: 产品价格
  • color: 产品颜色
  • SKU: 产品唯一标识符
  • date: 网络爬取日期(2023年3月11日)
  • description: 包含品牌、成分和护理说明的额外描述,以JSON格式存储
  • images: 产品描述中的照片

应用领域

  • 电子商务分析
  • 时尚行业

购买信息

搜集汇总
数据集介绍
main_image_url
构建方式
在电子商务与时尚产业数据挖掘领域,TrainingDataPro/asos-e-commerce-dataset的构建体现了系统化数据采集的严谨性。该数据集通过网页抓取技术,从知名时尚电商平台Asos网站上采集了超过30,845款服装商品的信息。采集过程聚焦于提取每个商品的多个结构化字段,包括商品名称、价格、颜色、尺寸、类别、唯一标识符(SKU)、商品描述(以JSON格式存储的品牌、成分与护理说明)、图片链接以及采集日期(统一为2023年3月11日)。这种基于目标网站公开信息的自动化采集方法,确保了数据来源的真实性与时效性,为后续分析提供了扎实的原始资料基础。
使用方法
对于研究者与开发者而言,该数据集为电子商务文本挖掘任务提供了直接可用的资源。用户可通过HuggingFace平台获取数据,并依据其文本分类的任务标签进行模型训练与评估,例如构建商品类别自动分类器或基于描述的属性提取模型。数据集中的JSON格式描述字段和图片链接,支持进行更深层次的多模态学习与内容分析。在使用前,用户需注意其特定的许可协议(CC BY-NC-ND 4.0),并可通过数据集提供方指定的渠道咨询商业用途的获取细节。
背景与挑战
背景概述
在电子商务与时尚产业深度融合的背景下,精准的产品分类与推荐成为提升用户体验与商业效益的核心。TrainingDataPro/asos-e-commerce-dataset由Unidata团队于2023年构建,通过网页爬取技术采集了Asos平台上30,845款服装商品的详细信息,涵盖名称、类别、价格、颜色及描述等多元属性。该数据集旨在支持文本分类任务,为时尚电商领域的自然语言处理与数据分析研究提供了高质量资源,推动了产品智能推荐与市场趋势分析的发展。
当前挑战
该数据集致力于解决时尚电商领域的产品分类与推荐问题,其挑战在于如何从非结构化的商品描述中准确提取语义特征,以应对时尚术语的动态演变与用户偏好的多样性。在构建过程中,数据采集面临网页结构差异与反爬虫机制的技术障碍,同时需确保商品信息的完整性,如处理缺失的颜色或尺寸数据。此外,描述字段的JSON格式解析与多模态数据(如图像与文本)的协同整合,亦增加了数据预处理与标注的复杂性。
常用场景
经典使用场景
在时尚电子商务领域,数据驱动的分析已成为优化产品推荐与分类的核心手段。TrainingDataPro/asos-e-commerce-dataset作为一项涵盖超过30,845个服装商品的文本分类数据集,其经典使用场景聚焦于自然语言处理任务中的多标签文本分类。研究者可借助商品名称、描述及类别等结构化文本信息,训练机器学习模型以自动识别产品属性,如品类、颜色与材质,从而实现对海量商品的高效归类与索引,为后续的个性化推荐系统奠定数据基础。
解决学术问题
该数据集有效应对了电子商务研究中商品信息异构性与标注稀缺的挑战。通过提供大规模、多属性的真实世界商品数据,它支持学术社区探索文本分类、信息抽取及多模态学习等前沿问题。具体而言,数据集助力解决商品描述的自然语言理解、跨模态对齐(如文本与图像关联)以及动态定价模型中的特征工程问题,推动了计算语言学与商业智能的交叉融合,为时尚行业的数字化研究提供了标准化基准。
实际应用
在实际商业环境中,本数据集可直接应用于时尚电商平台的运营优化。企业能够利用其丰富的商品文本与元数据,构建智能搜索系统,提升用户查询的匹配精度;同时,通过分析产品描述与类别关联,可增强个性化推荐引擎的准确性,驱动销售转化。此外,数据中的价格、颜色及尺寸信息有助于市场趋势分析,为库存管理、定价策略及供应链决策提供实证支持,实现数据驱动的商业洞察。
数据集最近研究
最新研究方向
在时尚电子商务领域,数据驱动的个性化推荐系统正成为研究热点。ASOS电子商务数据集凭借其丰富的产品文本与多模态信息,为前沿探索提供了坚实基础。当前研究聚焦于利用自然语言处理技术,深入挖掘产品描述中的语义特征,结合图像数据构建跨模态推荐模型,以提升时尚单品匹配的精准度。同时,该数据集支持细粒度的文本分类任务,助力品牌趋势分析与市场需求预测,推动智能零售的创新发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作