ksabeh/openbrand
收藏Hugging Face2023-08-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ksabeh/openbrand
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: category
dtype: string
- name: title
dtype: string
- name: brand
dtype: string
- name: asin
dtype: string
- name: imageURL
dtype: string
- name: position_index
dtype: int64
- name: num_tokens
dtype: int64
- name: title_length
dtype: int64
- name: title_category
dtype: string
splits:
- name: train
num_bytes: 68007488
num_examples: 181551
- name: test
num_bytes: 18875793
num_examples: 50432
- name: automotive
num_bytes: 4523220
num_examples: 12891
- name: cellphones
num_bytes: 51882096
num_examples: 78478
- name: clothes
num_bytes: 37489496
num_examples: 85052
- name: electronics
num_bytes: 4820108
num_examples: 9568
- name: grocery
num_bytes: 1567047
num_examples: 4475
- name: new_cat
num_bytes: 93547671
num_examples: 174381
- name: pets
num_bytes: 4175961
num_examples: 10851
- name: sports
num_bytes: 3804172
num_examples: 10841
- name: toys
num_bytes: 4161246
num_examples: 12657
- name: val
num_bytes: 7583420
num_examples: 20172
download_size: 110231234
dataset_size: 300437718
---
# Dataset Card for "openbrand"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
### 数据集信息
特征项:
- 名称:category(类别),数据类型:字符串
- 名称:title(标题),数据类型:字符串
- 名称:brand(品牌),数据类型:字符串
- 名称:asin(Amazon Standard Identification Number,亚马逊标准识别码),数据类型:字符串
- 名称:imageURL(图片URL),数据类型:字符串
- 名称:position_index(位置索引),数据类型:64位整型
- 名称:num_tokens(Token数量),数据类型:64位整型
- 名称:title_length(标题长度),数据类型:64位整型
- 名称:title_category(标题类别),数据类型:字符串
数据集划分:
- 名称:train(训练集),字节占用量:68007488,样本数量:181551
- 名称:test(测试集),字节占用量:18875793,样本数量:50432
- 名称:automotive(汽车品类子集),字节占用量:4523220,样本数量:12891
- 名称:cellphones(手机品类子集),字节占用量:51882096,样本数量:78478
- 名称:clothes(服装品类子集),字节占用量:37489496,样本数量:85052
- 名称:electronics(电子产品子集),字节占用量:4820108,样本数量:9568
- 名称:grocery(食品杂货子集),字节占用量:1567047,样本数量:4475
- 名称:new_cat(新类别子集),字节占用量:93547671,样本数量:174381
- 名称:pets(宠物用品子集),字节占用量:4175961,样本数量:10851
- 名称:sports(运动品类子集),字节占用量:3804172,样本数量:10841
- 名称:toys(玩具品类子集),字节占用量:4161246,样本数量:12657
- 名称:val(验证集),字节占用量:7583420,样本数量:20172
下载总大小:110231234
数据集总占用大小:300437718
---
# 「openbrand」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
ksabeh
原始信息汇总
数据集概述
特征信息
- category: 类型为字符串
- title: 类型为字符串
- brand: 类型为字符串
- asin: 类型为字符串
- imageURL: 类型为字符串
- position_index: 类型为整数
- num_tokens: 类型为整数
- title_length: 类型为整数
- title_category: 类型为字符串
数据分割
- train: 字节数为68007488,样本数为181551
- test: 字节数为18875793,样本数为50432
- automotive: 字节数为4523220,样本数为12891
- cellphones: 字节数为51882096,样本数为78478
- clothes: 字节数为37489496,样本数为85052
- electronics: 字节数为4820108,样本数为9568
- grocery: 字节数为1567047,样本数为4475
- new_cat: 字节数为93547671,样本数为174381
- pets: 字节数为4175961,样本数为10851
- sports: 字节数为3804172,样本数为10841
- toys: 字节数为4161246,样本数为12657
- val: 字节数为7583420,样本数为20172
数据集大小
- 下载大小: 110231234字节
- 数据集大小: 300437718字节
搜集汇总
数据集介绍

构建方式
该数据集名为ksabeh/openbrand,其构建方法是通过收集商品信息,涵盖多个类别,如汽车、手机、服装等,并从中提取关键特征,如品牌、类别、标题、asin码、图片链接等,以结构化形式组织数据,形成训练、测试、验证以及各个类别的子集,总计包含约300万条数据记录。
使用方法
使用该数据集时,用户可以根据不同的任务需求选择相应的数据子集,如训练集、测试集或特定类别的数据集。数据集以HuggingFace的格式提供,可以通过HuggingFace的datasets库直接加载使用,便于进行数据预处理、模型训练和评估等任务。
背景与挑战
背景概述
在商品品牌研究领域,'ksabeh/openbrand'数据集的构建,标志着对品牌信息处理的一次重要尝试。该数据集由研究人员Kasra Sabeh于2010年代初期创建,旨在为品牌识别、分类和推荐系统提供支持。它汇集了来自不同类别的商品信息,包括品牌名称、商品标题、asin码、图片链接等,总计约300万条记录。该数据集不仅为学术界提供了宝贵的研究资源,也对电子商务领域产生了深远影响。
当前挑战
数据集构建过程中,研究者面临了多方面的挑战。首先,如何确保收集到的品牌信息的准确性和全面性是一个关键问题。其次,由于商品类别繁多,数据标注和分类的复杂性增加了处理难度。此外,在数据集的应用研究中,如何有效地提取特征,建立高效的品牌识别模型,也是当前研究的热点问题。在数据集的实际应用中,如何处理数据的不平衡性,以及如何提高模型对新颖类别的泛化能力,都是待解决的挑战。
常用场景
经典使用场景
在电子商务与自然语言处理领域,'ksabeh/openbrand' 数据集的典型应用场景是进行品牌识别与分类任务。通过利用数据集中的商品标题、品牌名称、类别等信息,研究者可以构建模型来准确识别商品所属品牌,从而提升推荐系统的个性化程度。
解决学术问题
该数据集解决了品牌识别中遇到的跨类别的泛化问题,以及商品标题中含有噪声信息时的鲁棒性问题。其丰富的类别和品牌标注为学术研究提供了深入理解消费者行为和品牌策略的实证基础,对于提升机器学习模型在真实世界数据上的表现具有重要的意义和影响。
实际应用
在实际应用中,'ksabeh/openbrand' 数据集可用于电子商务平台的商品自动分类与品牌标签标注,有助于改善搜索引擎的检索结果,增强用户体验,提高营销活动的针对性和效率。
数据集最近研究
最新研究方向
在电子商务领域,品牌信息的处理与分析逐渐成为研究热点。针对ksabeh/openbrand数据集,近期研究集中于品牌分类与情感分析,旨在通过对商品标题、品牌及类别的深度挖掘,实现对消费者偏好的精准预测。该数据集的细分领域研究不仅推动了商品推荐系统的智能化发展,也为品牌营销策略的优化提供了数据支持,具有显著的应用价值和社会经济效益。
以上内容由遇见数据集搜集并总结生成



