five

Large Scale Search Dataset for Unbiased Learning to Rank

收藏
github2022-11-27 更新2024-05-31 收录
下载链接:
https://github.com/ChuXiaokai/baidu_ultr_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个来自百度搜索引擎的大规模搜索数据集,用于无偏学习排序。数据集包含了训练和测试数据,以及相关的预处理和使用说明。

This is a large-scale search dataset sourced from Baidu's search engine, designed for unbiased learning to rank. The dataset includes both training and testing data, along with relevant preprocessing and usage instructions.
创建时间:
2022-06-08
原始信息汇总

数据集概述

数据集名称

  • A Large Scale Search Dataset from Baidu Search Engine

数据集内容

  • 训练数据:Large Scale Web Search Session Data,包含用户搜索会话的详细信息。
  • 测试数据:Expert Annotation Dataset for Validation,包含专家标注的验证数据。

数据集结构

  • 训练数据结构

    • 包含多个字段,如Qid, Query, Query Reformulation, Pos, Url_md5, Title, Abstract, Multimedia Type, Click等。
    • 数据格式为CSV,详细记录了搜索结果页面的展示信息和用户行为。
  • 测试数据结构

    • 包含字段如Qid, Query, Title, Abstract, Label, Bucket等。
    • 数据格式为文本文件,记录了专家对搜索查询的标注信息。

数据集获取

  • 训练数据:可通过Google Drive或Baidu网站获取。
  • 测试数据:可通过Google Drive获取。

预训练模型

  • 提供不同层数的预训练语言模型,如Baidu_ULTR_Base_12L_12H_768Emb, Baidu_ULTR_Base_6L_12H_768Emb, Baidu_ULTR_Base_3L_12H_768Emb。

使用指南

  • 环境要求:Python 3.6+,Pytorch 1.10.2 + CUDA 10.2。
  • 快速开始
    • 准备数据集,包括下载和移动文件到指定目录。
    • 预训练Transformer,使用CTR预测和MLM任务。
    • 训练基线模型,如Naive, IPW, DLA, REM和PairD。

引用信息

  • 若使用此数据集,请引用论文:

    @inproceedings{ zou2022large, title={A Large Scale Search Dataset for Unbiased Learning to Rank}, author={Lixin Zou and Haitao Mao andXiaokai Chu and Jiliang Tang and Wenwen Ye and Shuaiqiang Wang and Dawei Yin}, booktitle={NeurIPS 2022}, year={2022} }

联系方式

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建于百度搜索引擎的大规模搜索会话数据基础之上,涵盖了用户查询、点击行为、页面展示时间等多维度信息。数据通过自动化系统从实际搜索日志中提取,并结合专家标注的测试数据集进行验证。训练数据包括用户搜索会话的详细记录,而测试数据则由专家对查询结果进行人工标注,确保了数据的多样性和准确性。
特点
该数据集的特点在于其规模庞大且覆盖广泛,包含了丰富的用户交互行为数据,如点击、跳过、停留时间等。此外,数据集还提供了查询重写、多媒体类型等高级特征,能够全面反映用户搜索行为。专家标注的测试数据进一步增强了数据集的可靠性,使其适用于无偏学习排序任务的研究与开发。
使用方法
使用该数据集时,需先下载并解压训练数据和测试数据,将其分别放置于指定目录。随后,通过预训练Transformer模型进行特征提取,支持点击率预测和掩码语言模型任务。用户可选择多种基线模型进行训练,如Naive、IPW等,并通过命令行参数调整模型配置。预训练语言模型可直接下载使用,进一步简化了实验流程。
背景与挑战
背景概述
Large Scale Search Dataset for Unbiased Learning to Rank 是由百度搜索引擎提供的大规模搜索数据集,旨在解决无偏学习排序(Unbiased Learning to Rank, ULTR)领域中的关键问题。该数据集由Lixin Zou、Haitao Mao等研究人员于2022年发布,并在NeurIPS 2022会议上进行了展示。数据集的核心研究问题在于如何通过大规模真实用户搜索行为数据,消除排序模型中的偏差,提升搜索引擎的排序效果。该数据集不仅包含了海量的用户搜索会话数据,还提供了专家标注的测试数据,为无偏学习排序算法的研究提供了坚实的基础。其发布对信息检索和机器学习领域的研究具有重要影响,推动了无偏排序算法的进一步发展。
当前挑战
该数据集在解决无偏学习排序问题时面临多重挑战。首先,用户点击行为中存在位置偏差和选择偏差,如何从用户行为中提取无偏信号是一个关键难题。其次,数据集中包含大量的稀疏数据和长尾查询,如何有效处理这些数据以提升模型的泛化能力是另一个挑战。在数据构建过程中,研究人员还需应对数据隐私和脱敏问题,确保用户信息的安全。此外,专家标注数据的质量一致性也是一个重要挑战,尤其是在处理高频查询和低频查询时,如何保证标注的公平性和准确性仍需进一步探索。这些挑战共同构成了该数据集在无偏学习排序研究中的核心难点。
常用场景
经典使用场景
在信息检索和搜索引擎优化领域,Large Scale Search Dataset for Unbiased Learning to Rank数据集被广泛用于无偏学习排序算法的训练与评估。该数据集通过百度搜索引擎的大规模搜索会话数据,提供了丰富的用户交互信息,如点击行为、停留时间等,为研究者提供了一个真实的实验环境,以验证和改进排序算法的性能。
解决学术问题
该数据集解决了无偏学习排序中的关键问题,即如何从用户交互数据中准确推断文档的相关性,避免因点击偏差导致的模型偏差。通过提供大规模的真实搜索会话数据和专家标注数据,研究者能够开发出更加鲁棒和准确的排序模型,提升搜索引擎的用户体验。
衍生相关工作
基于该数据集,研究者们开发了多种经典的无偏学习排序算法,如IPW、DLA、REM和PairD等。这些算法在多个公开评测中表现出色,推动了无偏学习排序领域的研究进展。此外,该数据集还催生了一系列预训练语言模型的研究,如基于Transformer的CTR预测和MLM任务,进一步提升了排序模型的性能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作