Vertical Search Blending Dataset

github2022-11-10 更新2024-05-31 收录

下载链接：

https://github.com/seznam/vertical-search-blending-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个由Seznam.cz搜索引擎收集的垂直搜索混合数据集，作为SIGIR 2019论文发布。数据集包含84172160条记录，描述了搜索结果页面的结构和行为，用于研究和开发信息检索技术。

A mixed vertical search dataset collected by the Seznam.cz search engine, released as part of a SIGIR 2019 paper. The dataset comprises 84,172,160 records, detailing the structure and behavior of search result pages, intended for research and development in information retrieval technologies.

创建时间：

2019-01-29

原始信息汇总

数据集概述

名称: Vertical Search Blending Dataset

收集者: Seznam.cz 搜索引擎

发布形式: 作为SIGIR 2019会议论文发布

数据集大小:

样本: 25000条记录
完整数据集: 84172160条记录，分为三部分下载
- Part 0: 1.3 GB
- Part 1: 1.5 GB
- Part 2: 1.7 GB

数据格式: 制表符分隔值（TSV）格式

数据结构

每行记录: 代表一个混合的搜索引擎结果页面（SERP）
字段数量: 63个字段，通过制表符分隔
字段描述:
- 前7个字段: 通用信息，包括SERP唯一ID、查询ID、查询词数量、SERP上方元素数量、时间戳、可用操作列表、用户设备类型
- 剩余56个字段: 描述14个SERP位置的详细信息，包括点击情况、倾向性、垂直源ID、域名

引用信息

若在科学出版物中使用此数据集，请引用以下论文:

Pavel Procházka, Matěj Kocián, Jakub Drdák, Jan Vršovský, Vladimír Kadlec, Jaroslav Kuchař. 2019. Vertical Search Blending – A Real-world Counterfactual Dataset. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ’19), July 21–25, 2019, Paris, France. ACM, New York, NY, USA, 4 pages. https://doi.org/10.1145/3331184.3331345

搜集汇总

数据集介绍

构建方式

Vertical Search Blending Dataset 是由 Seznam.cz 搜索引擎收集并发布的一个垂直搜索混合数据集，旨在为信息检索领域的研究提供真实世界的反事实数据。该数据集通过记录用户在搜索引擎结果页面（SERP）上的交互行为构建而成，每条记录代表一个混合的SERP，包含查询信息及14个SERP位置的相关描述。数据以制表符分隔值（TSV）格式存储，每条记录包含63个字段，详细描述了查询及其在SERP中的表现。

特点

该数据集的特点在于其规模庞大，包含超过8400万条记录，涵盖了用户在多种设备（如桌面、手机、平板）上的搜索行为。每条记录不仅包含查询的基本信息，如查询的唯一ID、时间戳和设备类型，还详细记录了用户在SERP中的点击行为、点击概率、垂直搜索来源以及有机搜索结果的域名哈希值。这些丰富的信息为研究垂直搜索混合算法提供了多维度的分析基础。

使用方法

数据集的使用方法较为灵活，用户可以通过提供的Python或AWK脚本快速读取和处理数据。数据集分为三个部分，用户可根据需求下载相应的部分进行处理。每条记录的字段结构清晰，便于研究人员提取和分析特定信息。此外，数据集还提供了实验脚本，帮助用户复现论文中的实验结果，并为后续研究提供了参考范例。

背景与挑战

背景概述

Vertical Search Blending Dataset是由Seznam.cz搜索引擎收集并发布的一个垂直搜索混合数据集，首次亮相于2019年的SIGIR会议。该数据集由Pavel Procházka等人主导开发，旨在解决搜索引擎结果页面（SERP）中垂直搜索结果的混合问题。垂直搜索是指在特定领域（如新闻、图片、视频等）内进行的搜索，而混合则是指将这些垂直搜索结果与传统的有机搜索结果相结合。该数据集包含超过8400万条记录，涵盖了用户查询、点击行为、设备类型等多维度信息，为信息检索领域的研究提供了宝贵的资源。其发布不仅推动了搜索引擎优化和用户行为分析的研究，还为学术界和工业界提供了丰富的实验数据。

当前挑战

Vertical Search Blending Dataset的构建和应用面临多重挑战。首先，垂直搜索结果的混合问题本身具有复杂性，如何在不同垂直领域之间进行有效排序和展示，以提升用户体验，是一个亟待解决的难题。其次，数据集的构建过程中需要处理海量的用户行为数据，包括点击日志、设备信息等，这对数据的清洗、存储和处理提出了极高的要求。此外，由于数据集涉及用户隐私，如何在保证数据可用性的同时保护用户隐私，也是一个重要的技术挑战。最后，数据集的规模庞大，如何高效地进行数据分析和模型训练，以验证相关算法的有效性，也对研究者的计算资源提出了较高要求。

常用场景

经典使用场景

Vertical Search Blending Dataset 主要用于研究垂直搜索结果的混合排序问题。该数据集通过记录用户在搜索引擎结果页面（SERP）上的点击行为，提供了丰富的查询和点击数据，帮助研究者分析不同垂直搜索结果的展示效果。经典的使用场景包括评估不同垂直搜索结果的点击率、用户偏好以及混合排序算法对搜索结果的影响。

衍生相关工作

基于 Vertical Search Blending Dataset，研究者们开展了多项经典工作。例如，有研究利用该数据集提出了新的混合排序算法，显著提升了搜索结果的点击率。此外，还有研究通过分析用户点击行为，揭示了不同垂直搜索结果之间的竞争关系，为搜索引擎的优化提供了新的思路。这些工作不仅丰富了信息检索领域的研究成果，也为实际应用提供了有力支持。

数据集最近研究