max-chroma/AOL-500k-User-Session-Collection

Name: max-chroma/AOL-500k-User-Session-Collection
Creator: max-chroma
Published: 2024-09-16 23:10:23
License: 暂无描述

Hugging Face2024-09-16 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/max-chroma/AOL-500k-User-Session-Collection

下载链接

链接失效反馈

官方服务：

资源简介：

AOL 500k用户会话集合包含约2000万条来自约65万用户的网络查询，时间跨度为三个月。数据按匿名用户ID排序并按顺序排列。数据集的目标是提供基于真实用户的查询日志数据，可用于个性化、查询重构或其他类型的搜索研究。数据集包括匿名用户ID、查询、查询时间、项目排名和点击URL等信息。数据集的每一行代表两种事件之一：用户未点击结果的查询或用户点击结果的查询。数据集还包含一些基本统计信息，如数据行数、新查询实例数、请求下一页结果的次数、用户点击事件数等。此外，数据集包含未过滤的性明确内容，建议成熟成年人使用。

This dataset consists of approximately 20 million web queries collected from about 650,000 users over a period of three months. The data is sorted by anonymous user ID and includes detailed information about queries and click events. The purpose of the dataset is to provide query log data based on real users, which can be used for personalization, query reformulation, or other types of search research. The dataset includes five fields: AnonID (anonymous user ID), Query (user query), QueryTime (query time), ItemRank (rank of the clicked item), and ClickURL (domain portion of the clicked results URL). The dataset also includes some statistical information, such as the number of queries and click events. Additionally, the dataset contains warnings indicating that it may include sexually explicit language and is intended for use by mature adults.

提供机构：

max-chroma

搜集汇总

数据集介绍

构建方式

在信息检索领域，真实用户行为数据对于理解搜索模式至关重要。AOL 500k用户会话集合的构建基于AOL搜索引擎在2006年3月至5月期间的实际日志，涵盖了约65万匿名用户的2000万条网络查询记录。数据采集过程遵循严格的匿名化原则，移除了用户身份信息，仅保留匿名ID、查询内容、查询时间、点击排名及点击URL等字段。每条记录代表一次查询或点击事件，数据按用户ID和时间顺序排列，未经内容过滤，真实反映了用户的原始搜索行为，包括可能存在的显式内容，确保了数据的原始性和真实性。

特点

该数据集的核心特点在于其大规模和真实性，包含超过3600万行数据，涉及1000多万条唯一标准化查询，覆盖了广泛的用户搜索场景。数据不仅记录了查询文本，还整合了点击行为信息，如点击排名和URL域名，为研究查询重构、个性化搜索和用户行为分析提供了多维视角。值得注意的是，数据中包含了大量未过滤的显式内容，这虽增加了研究的复杂性，但也更准确地模拟了现实网络环境。此外，数据集中还标注了“下一页”请求事件，有助于深入分析用户的信息寻求模式。

使用方法

在应用层面，该数据集主要用于非商业研究，如信息检索、用户行为建模和查询个性化分析。研究人员可通过匿名ID追踪用户会话序列，结合查询时间和点击事件，重建用户的搜索过程。使用时应先解析数据格式，区分纯查询行和点击事件行，利用查询时间排序分析时序模式。鉴于数据包含显式内容，建议在成熟的研究环境中处理，并遵守相关法律和伦理准则。数据引用需参考原始出版物《A Picture of Search》，以确保学术规范性。

背景与挑战

背景概述

在信息检索与个性化搜索研究领域，大规模真实用户查询日志是理解用户行为、优化搜索引擎性能的关键资源。AOL 500k用户会话集合由AOL公司于2006年3月至5月间发布，主要研究人员包括G. Pass、A. Chowdhury和C. Torgeson，其核心研究问题聚焦于通过匿名化用户搜索日志，探索查询模式、点击行为及个性化推荐机制。该数据集收录了约650k匿名用户的三个月内近2000万条网络查询记录，涵盖查询内容、时间戳及点击结果，为后续搜索算法革新、用户建模研究提供了实证基础，显著推动了信息检索领域从理论到实际应用的过渡。

当前挑战

该数据集旨在解决网络搜索中的个性化与查询重构问题，其挑战在于如何从海量、嘈杂的日志中准确捕捉用户意图，并处理查询语言的多样性与歧义性。构建过程中，研究人员面临数据匿名化与隐私保护的平衡难题，需在保留用户行为特征的同时移除敏感身份信息；此外，数据包含大量未过滤的露骨内容，增加了数据清洗与伦理审查的复杂性，而查询规范化过程也可能引入语义损失，影响后续分析的准确性。

常用场景

经典使用场景

在信息检索与个性化搜索领域，AOL-500k-User-Session-Collection数据集以其大规模真实用户查询日志而著称。该数据集记录了约650k匿名用户在三个月内的搜索行为，包括查询内容、时间戳及点击反馈，为研究用户搜索意图与行为模式提供了宝贵资源。经典使用场景集中于查询重构、搜索结果排序优化以及用户画像构建，通过分析查询序列与点击数据，能够深入理解用户在信息需求表达与结果选择间的动态交互过程。

解决学术问题

该数据集有效解决了信息检索研究中若干关键问题，例如查询歧义性消解、个性化推荐系统的冷启动问题以及用户行为建模的实证验证。通过提供真实世界中的搜索会话数据，研究者能够基于实际用户行为而非模拟数据，探索查询演化规律、点击偏置效应以及多轮搜索中的信息需求细化机制。其意义在于推动了检索模型从静态匹配向动态交互范式的转变，为理解大规模网络搜索生态提供了实证基础。

衍生相关工作

基于该数据集，学术界衍生出多项经典研究工作，例如Pass等人于2006年发表的《A Picture of Search》奠定了大规模查询日志分析的基础框架。后续研究扩展至查询自动补全、会话分割算法设计以及隐私保护下的用户行为建模等领域。这些工作不仅深化了对搜索动态性的理论认识，还催生了如个性化排序模型和上下文感知检索系统等一系列创新方法，持续影响着信息检索与数据挖掘的前沿发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集