全球速卖通搜索系统数据集
收藏国家基础学科公共科学数据中心2024-03-05 收录
下载链接:
https://www.nbsdc.cn/general/dataDetail?id=64edc986bb16e07753c35bf4&type=1
下载链接
链接失效反馈官方服务:
资源简介:
数据内容为全球速卖通搜索系统的真实流量日志中收集的数据集。作为全球最大的全球电子商务平台之一,速卖通为200多个国家提供商品搜索服务。这里选取其中5种语言的数据集以显示了电子商务平台中的搜索会话情况。该数据集是为了促进对学习排名Learning to Rank(LTR)问题的研究。
该数据集采集的截至时间为2020年12月,是全球速卖通搜索系统的真实流量日志中收集的数据集。
该数据集包含5类语言(俄语、西班牙语、法语、荷兰语、英语),每种语言下分为训练集2个文件和测试集2个文件,合计20个压缩文件,每个压缩文件都有一个 csv 格式文件。训练集和测试集按时间顺序拆分。
数据量6.14GB
This dataset is collected from the real traffic logs of the AliExpress search system. As one of the world's largest global e-commerce platforms, AliExpress offers product search services to over 200 countries. We selected datasets in five languages to demonstrate search session scenarios on e-commerce platforms. This dataset is designed to promote research on Learning to Rank (LTR) problems.
The dataset was collected as of December 2020, sourced from the real traffic logs of the AliExpress search system.
The dataset includes 5 languages: Russian, Spanish, French, Dutch, and English. For each language, there are 2 training set files and 2 test set files, totaling 20 compressed files. Each compressed file contains a CSV-format file. The training and test sets are split chronologically.
The total data size is 6.14 GB.
提供机构:
阿里巴巴(中国)网络技术有限公司
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集源自全球电商平台速卖通的搜索系统真实流量日志,涵盖俄语、西班牙语、法语、荷兰语和英语五种语言,旨在支持学习排名(LTR)问题的研究。数据采集截至2020年12月,总量为6.14GB,包含训练集和测试集文件。
以上内容由遇见数据集搜集并总结生成



