five

LETOR 4.0

收藏
arXiv2013-06-09 更新2024-06-21 收录
下载链接:
http://research.microsoft.com/en-us/um/beijing/projects/letor/letor4download.aspx
下载链接
链接失效反馈
官方服务:
资源简介:
LETOR 4.0是由微软亚洲研究院创建的基准数据集,专注于学习排序研究。该数据集基于Gov2网页集合和TREC 2007及2008的Million Query轨道查询集,包含约1700个标记文档的MQ2007查询和约800个标记文档的MQ2008查询。数据集创建过程中采用了5折交叉验证策略,并提供了多种版本的处理数据。LETOR 4.0主要应用于搜索引擎的排序算法优化,旨在提高查询结果的相关性和准确性。

LETOR 4.0 is a benchmark dataset created by Microsoft Research Asia, focusing on learning-to-rank research. The dataset is based on the Gov2 web corpus and the Million Query track query sets from TREC 2007 and 2008. It includes approximately 1700 labeled documents for MQ2007 queries and around 800 labeled documents for MQ2008 queries. A 5-fold cross-validation strategy was adopted during the dataset's construction, and multiple processed versions of the data are provided. LETOR 4.0 is mainly applied to the optimization of ranking algorithms for search engines, with the goal of enhancing the relevance and accuracy of query results.
提供机构:
微软亚洲研究院
创建时间:
2013-06-09
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,LETOR 4.0数据集的构建体现了严谨的工程化设计。该数据集基于Gov2网页集合(约2500万页面)以及TREC 2007和2008年百万查询赛道中的两个查询集(MQ2007和MQ2008),共包含约2500个带有标注文档的查询。通过提取46维特征向量,如词频、逆文档频率、BM25及页面排名等,构建了查询-文档对样本。数据采用五折交叉验证划分,每个折次均包含训练集、验证集和测试集,确保了评估的稳健性。
特点
LETOR 4.0数据集的特点在于其全面覆盖了排序学习的多种设置。它不仅提供监督排序数据,还扩展至半监督排序、排序聚合和列表排序等场景。数据格式统一,每行代表一个查询-文档对,包含相关性标签、查询ID、特征向量及文档注释。特别地,数据集提供了三种版本(NULL、MIN、QueryLevelNorm),以适应不同的预处理需求,其中QueryLevelNorm版本已进行查询级归一化,可直接用于模型训练。
使用方法
使用LETOR 4.0数据集时,研究者可根据具体任务选择相应设置。对于监督排序,可直接加载QueryLevelNorm版本进行五折交叉验证;半监督排序则利用未标注样本(标签为-1)扩展训练数据。排序聚合任务需处理多输入排名列表,而列表排序则关注文档排列的真实顺序。数据集附带的元数据、链接图、站点地图及相似性关系文件,支持特征工程与新方法探索,为排序算法研究提供了丰富基础。
背景与挑战
背景概述
LETOR 4.0数据集由微软亚洲研究院的Tao Qin与Tie-Yan Liu团队于2009年7月发布,作为学习排序(Learning to Rank)研究领域的重要基准资源。该数据集基于Gov2网页集合及TREC 2007与2008的百万查询追踪数据构建,涵盖了监督排序、半监督排序、排序聚合及列表排序等多种任务设置。其核心目标在于为信息检索与机器学习交叉领域提供标准化的特征表示、相关性标注与评估工具,以推动排序算法的创新与比较。自2007年首次发布以来,LETOR系列持续演进,4.0版本以其全面性与多样性,成为学术界与工业界评估排序模型性能的基石,显著促进了相关算法的发展与应用。
当前挑战
LETOR 4.0数据集致力于解决信息检索中查询结果排序的优化问题,其核心挑战在于如何从高维特征中学习有效的排序函数,以准确反映文档与查询的相关性。具体而言,数据集中包含的46维特征需在复杂查询场景下捕捉文本统计、链接结构与内容相似性等多源信息,这对模型的泛化能力与鲁棒性提出了较高要求。在构建过程中,团队面临数据规模与质量的双重挑战:一方面需处理Gov2集合中约2500万网页的原始数据,提取并规范化特征;另一方面需整合TREC查询的标注结果,确保相关性判断的可靠性与一致性。此外,数据中存在的缺失值(如“NULL”标记)与未标注样本,进一步增加了预处理与半监督学习的复杂度。
常用场景
经典使用场景
在信息检索领域,LETOR 4.0数据集作为学习排序研究的基准工具,其经典使用场景集中于监督排序算法的训练与评估。该数据集基于Gov2网页集合和TREC百万查询轨迹构建,提供了丰富的查询-文档对及46维特征向量,支持五折交叉验证。研究者利用其标准化的数据划分和相关性标注,能够系统性地开发和比较各类排序模型,如点对、列表对及列表级排序方法,从而推动排序算法在准确性和效率上的持续优化。
解决学术问题
LETOR 4.0数据集有效解决了信息检索中排序模型评估标准不一的学术难题。通过提供统一的数据格式、特征集合和评估框架,该数据集使得不同排序算法能够在公平环境下进行对比分析。它特别针对监督排序、半监督排序、排序聚合和列表级排序等核心问题,为研究者提供了验证新理论和方法的基础平台,显著促进了学习排序领域的理论进展和技术创新。
衍生相关工作
LETOR 4.0数据集催生了众多经典研究工作,如LambdaMART、ListNet和RankNet等先进排序算法的提出与验证。这些工作不仅深化了对排序问题的理解,还推动了机器学习与信息检索的交叉融合。此外,基于该数据集的半监督排序和排序聚合研究,为处理稀疏标注数据和集成多源排序信息提供了新思路,进一步拓展了学习排序技术的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作