Large Scale Search Dataset for Unbiased Learning to Rank

github2022-11-27 更新2024-05-31 收录

下载链接：

https://github.com/ChuXiaokai/baidu_ultr_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个来自百度搜索引擎的大规模搜索数据集，用于无偏学习排序。数据集包含了训练和测试数据，以及相关的预处理和使用说明。

This is a large-scale search dataset sourced from Baidu's search engine, designed for unbiased learning to rank. The dataset includes both training and testing data, along with relevant preprocessing and usage instructions.

创建时间：

2022-06-08

原始信息汇总

数据集概述

数据集名称

A Large Scale Search Dataset from Baidu Search Engine

数据集内容

训练数据：Large Scale Web Search Session Data，包含用户搜索会话的详细信息。
测试数据：Expert Annotation Dataset for Validation，包含专家标注的验证数据。

数据集结构

训练数据结构：
- 包含多个字段，如Qid, Query, Query Reformulation, Pos, Url_md5, Title, Abstract, Multimedia Type, Click等。
- 数据格式为CSV，详细记录了搜索结果页面的展示信息和用户行为。
测试数据结构：
- 包含字段如Qid, Query, Title, Abstract, Label, Bucket等。
- 数据格式为文本文件，记录了专家对搜索查询的标注信息。

数据集获取

训练数据：可通过Google Drive或Baidu网站获取。
测试数据：可通过Google Drive获取。

预训练模型

提供不同层数的预训练语言模型，如Baidu_ULTR_Base_12L_12H_768Emb, Baidu_ULTR_Base_6L_12H_768Emb, Baidu_ULTR_Base_3L_12H_768Emb。

使用指南

环境要求：Python 3.6+，Pytorch 1.10.2 + CUDA 10.2。
快速开始：
- 准备数据集，包括下载和移动文件到指定目录。
- 预训练Transformer，使用CTR预测和MLM任务。
- 训练基线模型，如Naive, IPW, DLA, REM和PairD。

引用信息

若使用此数据集，请引用论文：

@inproceedings{ zou2022large, title={A Large Scale Search Dataset for Unbiased Learning to Rank}, author={Lixin Zou and Haitao Mao andXiaokai Chu and Jiliang Tang and Wenwen Ye and Shuaiqiang Wang and Dawei Yin}, booktitle={NeurIPS 2022}, year={2022} }

联系方式

如需帮助或报告问题，请访问issues tracker。

搜集汇总

数据集介绍

构建方式

该数据集构建于百度搜索引擎的大规模搜索会话数据基础之上，涵盖了用户查询、点击行为、页面展示时间等多维度信息。数据通过自动化系统从实际搜索日志中提取，并结合专家标注的测试数据集进行验证。训练数据包括用户搜索会话的详细记录，而测试数据则由专家对查询结果进行人工标注，确保了数据的多样性和准确性。

特点

该数据集的特点在于其规模庞大且覆盖广泛，包含了丰富的用户交互行为数据，如点击、跳过、停留时间等。此外，数据集还提供了查询重写、多媒体类型等高级特征，能够全面反映用户搜索行为。专家标注的测试数据进一步增强了数据集的可靠性，使其适用于无偏学习排序任务的研究与开发。

使用方法

使用该数据集时，需先下载并解压训练数据和测试数据，将其分别放置于指定目录。随后，通过预训练Transformer模型进行特征提取，支持点击率预测和掩码语言模型任务。用户可选择多种基线模型进行训练，如Naive、IPW等，并通过命令行参数调整模型配置。预训练语言模型可直接下载使用，进一步简化了实验流程。

背景与挑战

背景概述

Large Scale Search Dataset for Unbiased Learning to Rank 是由百度搜索引擎提供的大规模搜索数据集，旨在解决无偏学习排序（Unbiased Learning to Rank, ULTR）领域中的关键问题。该数据集由Lixin Zou、Haitao Mao等研究人员于2022年发布，并在NeurIPS 2022会议上进行了展示。数据集的核心研究问题在于如何通过大规模真实用户搜索行为数据，消除排序模型中的偏差，提升搜索引擎的排序效果。该数据集不仅包含了海量的用户搜索会话数据，还提供了专家标注的测试数据，为无偏学习排序算法的研究提供了坚实的基础。其发布对信息检索和机器学习领域的研究具有重要影响，推动了无偏排序算法的进一步发展。

当前挑战

该数据集在解决无偏学习排序问题时面临多重挑战。首先，用户点击行为中存在位置偏差和选择偏差，如何从用户行为中提取无偏信号是一个关键难题。其次，数据集中包含大量的稀疏数据和长尾查询，如何有效处理这些数据以提升模型的泛化能力是另一个挑战。在数据构建过程中，研究人员还需应对数据隐私和脱敏问题，确保用户信息的安全。此外，专家标注数据的质量一致性也是一个重要挑战，尤其是在处理高频查询和低频查询时，如何保证标注的公平性和准确性仍需进一步探索。这些挑战共同构成了该数据集在无偏学习排序研究中的核心难点。

常用场景

经典使用场景

在信息检索和搜索引擎优化领域，Large Scale Search Dataset for Unbiased Learning to Rank数据集被广泛用于无偏学习排序算法的训练与评估。该数据集通过百度搜索引擎的大规模搜索会话数据，提供了丰富的用户交互信息，如点击行为、停留时间等，为研究者提供了一个真实的实验环境，以验证和改进排序算法的性能。

解决学术问题

该数据集解决了无偏学习排序中的关键问题，即如何从用户交互数据中准确推断文档的相关性，避免因点击偏差导致的模型偏差。通过提供大规模的真实搜索会话数据和专家标注数据，研究者能够开发出更加鲁棒和准确的排序模型，提升搜索引擎的用户体验。

衍生相关工作

基于该数据集，研究者们开发了多种经典的无偏学习排序算法，如IPW、DLA、REM和PairD等。这些算法在多个公开评测中表现出色，推动了无偏学习排序领域的研究进展。此外，该数据集还催生了一系列预训练语言模型的研究，如基于Transformer的CTR预测和MLM任务，进一步提升了排序模型的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集