AOL, semanticscholar, iSearch, Washington Post, Washington Post (v4), Tipster 1/2/3, TREC Disks 4/5, New York Times, AQUAINT, GIRT4, TripClick, Yahoo-L18, Yandex - Personalized Web Search Challenge, TREC-OpenSearch

github2023-11-09 更新2024-05-31 收录

下载链接：

https://github.com/irgroup/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

IR-Group中的数据集，包括用于信息检索测试集合、文档语料库或其他研究中使用的数据形式。

The datasets within the IR-Group encompass a variety of data forms utilized in information retrieval test collections, document corpora, or other research endeavors.

创建时间：

2019-02-22

原始信息汇总

数据集概述

数据集列表

数据集	创建者	年份	大小（压缩后）	类型	用途
AOL	G. Pass, A. Chowdhury, C. Torgeson	2006	2.1G	IR测试集合	个性化搜索、查询重构或其他搜索研究
semanticscholar	Waleed Ammar	2019	46G	文档集合	即席检索
iSearch	Aalborg University	2010	50G	IR测试集合	集成搜索和基于引用的检索
Washington Post	NIST	2018	1.5G	IR测试集合	即席检索
Washington Post (v4)	NIST	2021	2.4G	IR测试集合	即席检索
Tipster 1/2/3	NIST	1994	1.3G	IR测试集合	即席检索
TREC Disks 4/5	NIST	1997	820MB	文档集合	即席检索
New York Times	Evan Sandhaus	2008	1G	文档集合	即席检索
AQUAINT	David Graff	2002	3G	文档集合	即席检索
GIRT4	GESIS-IZ	2006	110M	IT测试集合	即席检索、特定领域、多语言
TripClick	Navid Rekab-saz, Oleg Lesota, Markus Schedl, Jon Brassey, Carsten Eickhoff	2021	32.7G	点击日志数据集	即席检索、深度学习模型
Yahoo-L18	Yahoo! Research	2009/10	1.3G	点击日志数据集	即席检索、会话分析
Yandex - Personalized Web Search Challenge	Eugene Kharitonov, Pavel Serdyukov	2014	5.9G	点击日志数据集	即席检索、会话分析
TREC-OpenSearch	TREC OpenSearch Organizers	2016/17	600M	点击日志数据集	即席检索、会话分析

搜集汇总

数据集介绍

构建方式

该数据集集合涵盖了多个信息检索领域的经典数据集，包括新闻文档、点击日志和特定领域的测试集合。这些数据集由不同的研究机构和个人创建，时间跨度从1994年至2021年，涵盖了信息检索领域的多个重要发展阶段。每个数据集均经过精心整理和压缩，存储于专用的数据集卷中，确保了数据的完整性和可用性。数据集的具体构建方式包括文档收集、点击日志记录以及特定领域的语料库构建，旨在为信息检索研究提供多样化的数据支持。

特点

该数据集集合的特点在于其多样性和广泛的应用场景。数据集类型包括文档语料库、点击日志和测试集合，适用于个性化搜索、查询重构、深度学习模型训练等多种研究场景。例如，TripClick数据集提供了大规模的点击日志数据，适用于深度学习模型的训练；而GIRT4数据集则专注于多语言和特定领域的信息检索研究。此外，数据集的规模从数百兆到数十吉不等，满足了不同研究需求。

使用方法

这些数据集的使用方法主要围绕信息检索研究展开。研究人员可以通过访问存储于`/datasets`卷中的数据文件，直接加载所需的数据集进行实验。对于点击日志数据集，如Yahoo-L18和Yandex-Personalized Web Search Challenge，可以用于分析用户搜索行为和个性化推荐算法的开发。文档语料库如New York Times和AQUAINT则适用于构建和评估信息检索模型。每个数据集均附有详细的README文件，提供了数据集的背景信息和使用指南，便于研究人员快速上手。

背景与挑战

背景概述

该数据集集合涵盖了多个信息检索（IR）领域的重要数据集，涵盖了从1994年至2021年的多个时间节点。这些数据集由多个知名研究机构和个人创建，如NIST、Aalborg University、Yahoo! Research等，涵盖了文档语料库、点击日志数据集等多种类型。这些数据集主要用于支持信息检索领域的研究，如个性化搜索、查询重构、会话分析等。其中，New York Times数据集由Evan Sandhaus于2008年创建，AQUAINT数据集由David Graff于2002年发布，GIRT4数据集则由GESIS-IZ于2006年推出。这些数据集在信息检索领域具有广泛的影响力，为学术界和工业界提供了丰富的研究资源。

当前挑战

这些数据集在信息检索领域的研究中面临多重挑战。首先，数据集的多样性和规模对存储和计算资源提出了较高要求，尤其是在处理大规模点击日志数据集（如TripClick、Yahoo-L18）时，数据预处理和模型训练的计算成本显著增加。其次，数据集的异构性（如多语言、多领域）增加了模型泛化的难度，特别是在GIRT4等跨语言数据集中，如何有效处理语言差异成为关键问题。此外，个性化搜索和会话分析的研究依赖于高质量的用户行为数据，但数据隐私和匿名化问题限制了数据的可用性和完整性。最后，数据集的构建过程中，如何确保数据的代表性和时效性也是一个重要挑战，尤其是在动态变化的互联网环境中。

常用场景

经典使用场景

在信息检索领域，New York Times、AQUAINT、GIRT4、TripClick、Yahoo-L18、Yandex - Personalized Web Search Challenge和TREC-OpenSearch等数据集被广泛应用于ad-hoc检索任务。这些数据集通过提供丰富的文档语料和点击日志，支持研究人员对检索算法进行优化和评估。特别是在个性化搜索和会话分析方面，这些数据集为研究提供了坚实的基础。

衍生相关工作

基于这些数据集，衍生了许多经典的研究工作。例如，Yandex的个性化搜索挑战数据集催生了一系列关于用户行为建模和个性化推荐的研究。TripClick数据集则被用于开发基于深度学习的检索模型，显著提升了检索性能。此外，GIRT4数据集在跨语言检索领域的研究中也发挥了重要作用，推动了多语言信息检索技术的发展。

数据集最近研究