Item-Listing Datasets

github2023-05-11 更新2024-05-31 收录

下载链接：

https://github.com/recruit-communications/Item-Listing-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含酒店预订网站Jalan上访问量最高的10个区域的流行度（偏差）值和相似度（交互）值。这些值是通过分析过去六个月的网站访问日志得出的，包括客户访问商品列表屏幕的日期和时间、每个商品在访问时的位置以及客户预订的酒店信息。

This dataset encompasses the popularity (bias) and similarity (interaction) values for the top 10 most visited regions on the hotel booking website Jalan. These values were derived from an analysis of the website's access logs over the past six months, including the dates and times when customers accessed the product listing screens, the position of each product at the time of access, and the hotel information booked by the customers.

创建时间：

2019-06-13

原始信息汇总

数据集概述

数据集名称

Item-Listing Datasets

数据集来源

本数据集用于论文《Item Listing Optimization for E-commerce Websites Based on Diversity》，由N. Nishimura, K. Tanahashi, K. Suganuma, M. J. Miyama, M. Ohzeki共同撰写，发表于Frontiers in Computer Science。

数据集内容

数据集包含以下文件：

bias_area*_size**.csv：记录区域*中访问量前**的酒店的流行度p_ij。p_ij表示酒店i在位置j的估计流行度。
interaction_area*_size**.csv：记录区域*中访问量前**的酒店之间的相似度f_ii。f_ii表示酒店对i, i的估计相似度，基于同一会话中浏览的物品数量日志计算。
interaction_area1_size8_semantic.csv：记录区域1中访问量前8的酒店之间的相似度f_ii。f_ii的计算基于酒店是否位于北部或南部，以及是否为城市或经济型酒店的二维向量。

数据集与论文对应关系

数据集中的区域1, 2, 3分别对应论文中图3和图4的区域X, Y, Z。
论文图5中的酒店符号A至H对应数据集中的酒店_ids，具体对应关系如下：

酒店符号	hotel_id
A	fee6c0a8f3
B	0d26626dae
C	5a18d4d461
D	7405978021
E	80bdccbfe5
F	bdba2530bd
G	d91db6f9c9
H	7fced5b857

搜集汇总

数据集介绍

构建方式

该数据集基于日本酒店预订网站Jalan的访问日志构建，涵盖了用户在六个月内访问酒店列表页面的详细信息。通过分析访问日志中的时间、位置以及用户最终预订的酒店信息，数据集估算了每个酒店在不同位置的热门度（bias）以及酒店之间的相似度（interaction）。此外，部分相似度数据还结合了酒店的地理位置和类型等语义信息，进一步丰富了数据集的维度。

使用方法

该数据集适用于电子商务网站中的商品列表优化研究，尤其是基于多样性的推荐系统开发。研究者可以通过加载CSV文件获取酒店的热门度和相似度数据，并结合论文中的符号映射进行进一步分析。使用该数据集时，建议引用相关论文以尊重原作者的研究成果。数据集的结构清晰，便于直接应用于机器学习模型或算法验证，为优化商品展示策略提供了可靠的数据支持。

背景与挑战

背景概述

Item-Listing Datasets是由N. Nishimura等人于2019年创建的，旨在优化电子商务网站的商品列表展示。该数据集基于日本酒店预订网站Jalan的访问日志，涵盖了用户在六个月内访问商品列表页面的行为数据。研究人员通过分析这些数据，估算了酒店在不同展示位置上的受欢迎程度（偏差值）以及酒店之间的相似性（交互值）。该数据集的研究成果发表在《Frontiers in Computer Science》期刊上，为电子商务领域的商品列表优化提供了重要的数据支持，尤其是在提升用户浏览体验和增加转化率方面具有显著影响力。

当前挑战

Item-Listing Datasets在解决电子商务网站商品列表优化问题时，面临的主要挑战包括如何准确估算酒店在不同展示位置上的受欢迎程度，以及如何有效量化酒店之间的相似性。这些挑战源于用户行为的复杂性和多样性，例如用户可能在同一会话中浏览多个酒店，但其偏好和决策过程难以直接观测。此外，数据集的构建过程中还面临数据清洗和特征提取的挑战，尤其是在处理大规模访问日志时，如何高效地提取有用的信息并避免噪声干扰。这些挑战不仅要求研究人员具备扎实的数据分析能力，还需要对用户行为有深刻的理解。

常用场景

经典使用场景

在电子商务领域，Item-Listing Datasets被广泛应用于优化商品列表的展示策略。通过分析酒店预订网站Jalan的访问日志，该数据集提供了酒店在不同展示位置下的受欢迎程度和相似度信息，帮助研究者理解和模拟用户在选择酒店时的行为模式。

解决学术问题

该数据集解决了电子商务中商品列表优化的关键问题，特别是如何通过多样性和位置调整来提高用户满意度和转化率。通过提供详细的受欢迎程度和相似度数据，研究者能够开发出更有效的算法来优化商品展示顺序，从而提升用户体验和商业效益。

实际应用

在实际应用中，Item-Listing Datasets被用于改进电子商务平台的用户界面设计。例如，酒店预订网站可以利用这些数据来调整酒店展示的顺序和方式，以增加用户的点击率和预订率。此外，这些数据还可以用于个性化推荐系统，根据用户的历史行为和偏好提供更精准的推荐。

数据集最近研究