百度-ULTR数据集

Name: 百度-ULTR数据集
Creator: 百度公司
Published: 2022-09-20 03:34:38
License: 暂无描述

arXiv2022-09-20 更新2024-06-21 收录

下载链接：

https://github.com/ChuXiaokai/baidu_ultr_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

百度-ULTR数据集是由百度公司和密歇根州立大学合作创建的大规模无偏学习排序数据集，包含12亿随机抽样的搜索会话和7008个专家标注查询（397,572个查询文档对）。该数据集提供了原始语义特征和不同大小的预训练语言模型，以及丰富的展示信息和用户反馈，如停留时间，支持多任务学习和用户参与度优化。数据集旨在解决现有数据集在语义特征提取、展示信息完整性和真实用户反馈方面的不足，推动无偏学习排序的研究。

The Baidu-ULTR Dataset is a large-scale unbiased learning-to-rank dataset jointly created by Baidu Inc. and Michigan State University. It includes 1.2 billion randomly sampled search sessions and 7008 expert-annotated queries, amounting to 397,572 query-document pairs in total. This dataset provides raw semantic features, pre-trained language models of varying sizes, as well as comprehensive display information and user feedback including dwell time, enabling multi-task learning and user engagement optimization. The dataset is intended to resolve the deficiencies of existing datasets in semantic feature extraction, integrity of display information and real-world user feedback, thus advancing research in the field of unbiased learning-to-rank.

提供机构：

百度公司

创建时间：

2022-07-07

搜集汇总

数据集介绍

构建方式

在无偏学习排序领域，现有数据集常受限于语义特征陈旧、展示信息不完整及用户反馈合成化等问题。百度-ULTR数据集通过从百度搜索引擎随机采样12亿次搜索会话，构建了大规模真实用户行为数据。同时，该数据集包含7,008条专家标注查询，涉及397,572个查询-文档对，用于验证与测试。数据采集注重隐私保护，原始文本经过脱敏处理，转换为序列化令牌标识，并提供了基于掩码语言建模预训练的语言模型，以支持现代表示学习技术的应用。

特点

百度-ULTR数据集在无偏学习排序研究中展现出多重优势。其提供了丰富的原始语义特征，包括查询与文档的脱敏文本，使得基于大型预训练语言模型的端到端微调成为可能。数据集涵盖八类展示信息，如排名位置、显示高度与摘要，支持对位置偏差、点击必要偏差等多类展示偏差的深入探究。此外，真实的用户反馈数据，包括点击、跳过、停留时间等18种行为，为优化用户参与度及探索多任务学习提供了宝贵资源。数据规模达十亿级别，且标注查询覆盖高、中、低频分布，模拟了实际搜索场景中的长尾现象。

使用方法

百度-ULTR数据集适用于无偏学习排序算法的开发与评估。研究者可利用其大规模搜索会话数据训练模型，通过提供的预训练语言模型提取语义特征，并结合丰富的展示信息与用户行为，设计偏差校正机制。数据集中专家标注的查询-文档对可用于模型验证与测试，支持标准排序指标如DCG与ERR的计算。数据集按查询频率分层，便于分析算法在不同频率查询上的性能差异。使用前需遵循CC BY-NC 4.0许可协议，非商业用途下可从指定GitHub仓库获取数据与基准实现。

背景与挑战

背景概述

在信息检索领域，无偏学习排序（ULTR）旨在通过用户隐式反馈优化文档排序，但现有数据集在语义特征提取、展示信息完整性和真实用户反馈方面存在局限。百度-ULTR数据集由百度公司与密歇根州立大学于2022年联合发布，作为首个十亿级规模的ULTR数据集，它基于百度搜索引擎随机采样的12亿次搜索会话和7008个专家标注查询，提供了原始文本特征、丰富的页面展示信息及多样化的真实用户行为数据。该数据集不仅支持先进语言模型的应用，还促进了多偏差分析和多任务学习研究，显著推动了ULTR领域向实际工业场景的过渡。

当前挑战

百度-ULTR数据集面临的挑战主要体现在两方面：在领域问题层面，无偏学习排序需克服真实用户反馈中复杂的偏差模式，如位置偏差、信任偏差和点击必要性偏差，而现有算法多基于简化假设，在真实场景中易导致过度校正或性能下降；在构建过程中，数据采集需平衡大规模日志存储与隐私保护，原始文本需经脱敏处理，这限制了通用预训练模型的直接应用，同时专家标注虽遵循详细指南，但仍存在标注粒度与用户感知不匹配、长尾查询标注一致性等潜在偏差。

常用场景

经典使用场景

在信息检索与排序学习领域，百度-ULTR数据集为无偏学习排序研究提供了前所未有的实验平台。该数据集通过整合海量真实搜索会话与专家标注数据，支持研究者深入探索用户点击行为中的多种偏差机制。其经典应用场景集中于构建和验证先进的去偏算法，特别是在处理位置偏差、信任偏差及点击必要性偏差等复杂情境时，数据集提供的丰富展示特征与用户行为日志为模型训练与评估奠定了坚实基础。

解决学术问题

百度-ULTR数据集有效应对了无偏学习排序研究中长期存在的若干挑战。它通过提供原始文本语义特征与多样化展示信息，解决了传统数据集因特征过时或缺失而无法充分利用预训练语言模型的局限。此外，数据集中包含的真实用户反馈与长尾查询分布，使得学术界能够更准确地模拟实际搜索环境中的偏差现象，从而推动去偏算法在理论框架与实证验证上的双重突破。

衍生相关工作

围绕百度-ULTR数据集，学术界已衍生出一系列重要的研究工作。这些工作主要集中在利用其大规模真实数据探索因果推断在点击建模中的应用，以及开发基于预训练语言模型的排序算法。此外，针对数据集中突出的长尾查询与训练测试不匹配问题，研究者提出了多种自适应学习与分布外泛化方法，进一步拓展了无偏学习排序的理论边界与实践效能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集