nyuuzyou/ke-products
收藏Hugging Face2024-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nyuuzyou/ke-products
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从俄罗斯市场Kazanexpress的产品页面抓取的,包含了产品卡片的所有信息和API的元数据。数据集收集了大约300万种产品,假设这些是该市场上所有可用的产品。数据集主要使用俄语,但也可能包含其他语言。数据集的字段包括产品ID、标题、类别、评级、描述、评论、属性、卖家信息等。所有数据都位于训练集,没有验证集。数据集使用CC0许可证,允许任何用途的使用、修改和分发,无需许可或署名。
该数据集是从俄罗斯市场Kazanexpress的产品页面抓取的,包含了产品卡片的所有信息和API的元数据。数据集收集了大约300万种产品,假设这些是该市场上所有可用的产品。数据集主要使用俄语,但也可能包含其他语言。数据集的字段包括产品ID、标题、类别、评级、描述、评论、属性、卖家信息等。所有数据都位于训练集,没有验证集。数据集使用CC0许可证,允许任何用途的使用、修改和分发,无需许可或署名。
提供机构:
nyuuzyou
原始信息汇总
数据集卡片 - Kazanexpress products
数据集概述
该数据集是从俄罗斯市场平台Kazanexpress的产品页面抓取的。它包括产品卡片的所有信息和API的元数据。数据集是通过处理大约300万个产品收集的,从第一个产品开始。在数据集收集时,假设这些是该市场平台上所有可用的产品。请注意,API返回的数据未经过处理,这意味着数据集中包含大量无关数据,如描述中的图片链接和HTML片段。此外,某些字段可能为空,但预期字符串应包含某些数据,空响应已进行排序。
语言
数据集主要为俄语,但可能包含其他语言。
数据集结构
数据字段
该数据集包括以下字段:
id: 产品标识符(整数)title: 产品标题(字符串)category: 产品类别(字符串)parent_category: 产品父类别(字符串)grandparent_category: 产品祖父类别(字符串)greatgrandparent_category: 产品曾祖父类别(字符串)rating: 产品评分(浮点数)description: 产品描述(字符串)comments: 产品评论(数组)attributes: 产品属性(数组)seller: 卖家名称(字符串)seller_description: 卖家提供的描述(字符串)adultCategory: 产品是否为成人产品(布尔值)
数据分割
所有示例都在训练分割中,没有验证分割。
附加信息
许可证
该数据集根据Creative Commons Zero (CC0) 许可证公开到公共领域。这意味着您可以:
- 将其用于任何目的,包括商业项目。
- 随意修改。
- 无需请求许可即可分发。
无需署名,但始终受到赞赏!
CC0许可证:https://creativecommons.org/publicdomain/zero/1.0/deed.en
要了解更多关于CC0的信息,请访问Creative Commons网站:https://creativecommons.org/publicdomain/zero/1.0/



