five

nyuuzyou/ke-products

收藏
Hugging Face2024-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nyuuzyou/ke-products
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从俄罗斯市场Kazanexpress的产品页面抓取的,包含了产品卡片的所有信息和API的元数据。数据集收集了大约300万种产品,假设这些是该市场上所有可用的产品。数据集主要使用俄语,但也可能包含其他语言。数据集的字段包括产品ID、标题、类别、评级、描述、评论、属性、卖家信息等。所有数据都位于训练集,没有验证集。数据集使用CC0许可证,允许任何用途的使用、修改和分发,无需许可或署名。

该数据集是从俄罗斯市场Kazanexpress的产品页面抓取的,包含了产品卡片的所有信息和API的元数据。数据集收集了大约300万种产品,假设这些是该市场上所有可用的产品。数据集主要使用俄语,但也可能包含其他语言。数据集的字段包括产品ID、标题、类别、评级、描述、评论、属性、卖家信息等。所有数据都位于训练集,没有验证集。数据集使用CC0许可证,允许任何用途的使用、修改和分发,无需许可或署名。
提供机构:
nyuuzyou
原始信息汇总

数据集卡片 - Kazanexpress products

数据集概述

该数据集是从俄罗斯市场平台Kazanexpress的产品页面抓取的。它包括产品卡片的所有信息和API的元数据。数据集是通过处理大约300万个产品收集的,从第一个产品开始。在数据集收集时,假设这些是该市场平台上所有可用的产品。请注意,API返回的数据未经过处理,这意味着数据集中包含大量无关数据,如描述中的图片链接和HTML片段。此外,某些字段可能为空,但预期字符串应包含某些数据,空响应已进行排序。

语言

数据集主要为俄语,但可能包含其他语言。

数据集结构

数据字段

该数据集包括以下字段:

  • id: 产品标识符(整数)
  • title: 产品标题(字符串)
  • category: 产品类别(字符串)
  • parent_category: 产品父类别(字符串)
  • grandparent_category: 产品祖父类别(字符串)
  • greatgrandparent_category: 产品曾祖父类别(字符串)
  • rating: 产品评分(浮点数)
  • description: 产品描述(字符串)
  • comments: 产品评论(数组)
  • attributes: 产品属性(数组)
  • seller: 卖家名称(字符串)
  • seller_description: 卖家提供的描述(字符串)
  • adultCategory: 产品是否为成人产品(布尔值)

数据分割

所有示例都在训练分割中,没有验证分割。

附加信息

许可证

该数据集根据Creative Commons Zero (CC0) 许可证公开到公共领域。这意味着您可以:

  • 将其用于任何目的,包括商业项目。
  • 随意修改。
  • 无需请求许可即可分发。

无需署名,但始终受到赞赏!

CC0许可证:https://creativecommons.org/publicdomain/zero/1.0/deed.en

要了解更多关于CC0的信息,请访问Creative Commons网站:https://creativecommons.org/publicdomain/zero/1.0/

数据集策展人

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作