LISP Dataset

Name: LISP Dataset
Creator: 杜伊斯堡-埃森大学; 科隆应用技术大学; 帕多瓦大学
Published: 2026-01-14 18:49:13
License: 暂无描述

arXiv2026-01-14 更新2026-01-16 收录

下载链接：

https://github.com/irgroup/LISP_Dataset_and_Platform

下载链接

链接失效反馈

官方服务：

资源简介：

LISP数据集由杜伊斯堡-埃森大学等机构联合创建，是一个专注于交互式信息检索研究的富交互日志数据集。该数据集包含61名参与者（122次会话）的详细交互记录，整合了用户感知速度、主题兴趣、搜索专业度等多维特征，数据量涵盖22.6万篇争议性论点文档。数据集通过可控实验室研究收集，采用BM25检索系统记录用户查询、文档操作等行为，并配套开源了可扩展的日志平台框架。其核心价值在于为个性化搜索行为分析和用户模拟器验证提供基准，尤其适用于认知差异与情境因素对搜索策略影响的研究。

The LISP dataset, co-created by the University of Duisburg-Essen and other institutions, is a rich interaction log dataset dedicated to interactive information retrieval research. It contains detailed interaction records from 61 participants (122 sessions), integrating multi-dimensional features including user-perceived speed, topic interest and search expertise, and covers 226,000 controversial argumentative documents. Collected via controlled laboratory studies, the dataset employs the BM25 retrieval system to record user behaviors such as query submissions and document operations, and has open-sourced a scalable log platform framework as supporting resources. Its core value lies in providing benchmarks for personalized search behavior analysis and user simulator validation, and is particularly suitable for research on the impact of cognitive differences and contextual factors on search strategies.

提供机构：

杜伊斯堡-埃森大学; 科隆应用技术大学; 帕多瓦大学

创建时间：

2026-01-14

原始信息汇总

LISP 数据集与平台概述

数据集基本信息

数据集名称：LISP - A Rich Interaction Dataset and Loggable Interactive Search Platform
关联论文："LISP - A Rich Interaction Dataset and Loggable Interactive Search Platform" (ECIR 2026 投稿)
核心内容：包含用户研究期间收集的所有数据，以及用于开展研究的完整设置。

数据集内容与结构

数据来源：用户研究期间收集的日志文件。
存储位置：logs/ 目录。
关联数据：包含来自感知速度测试和两份问卷的额外元数据。

平台架构与功能

感知速度测试：在线测试实现，位于 ps-test/ 目录。
搜索应用前端：用户研究中使用的搜索引擎前端实现，位于 search-app/ 目录。
搜索引擎后端：搜索引擎后端实现，位于 search-engine/ 目录。

研究配置与自定义

参与者与主题配置

参与者列表：search-app/data/uids.txt 文件，包含以换行符分隔的用户名列表。
主题分配：search-app/data/user_topics.csv 文件，根据研究前问卷的偏好，为每位参与者分配主题。
- 文件结构：uid,topic1_keyword,topic1_question,topic2_keyword,topic2_question,high_interest_topic_column
- 功能：确保每位参与者处理他们在研究前问卷中表示感兴趣的主题。

界面与任务自定义

欢迎页面：通过修改 search-app/templates/welcome.html 调整内容。
任务描述：通过修改 search-app/templates/task.html 调整文本。
搜索结果按钮标签：在 search-app/templates/search.html 中修改“Pro”和“Con”按钮标签。
侧边栏描述：在 search-app/templates/layout.html 中调整任务描述、计数标签和概述列表标签。
研究后问卷：在 search-app/templates/end.html 中添加问卷链接。

数据记录与后端配置

日志记录：通过修改 search-app/static/logger.js 来记录额外信号或更改默认日志输出。
应用密钥：在 search-app/search_app.py 中设置 SECRET_KEY 以确保会话安全。
工作流程与提醒：在 search-app/search_app.py 中可调整网页路由序列和侧边栏提醒内容。
感知速度测试数据库：在 ps-test/php/db.php 中配置MySQL数据库连接，用于存储测试数据或显示积分榜。

搜索引擎与数据集合

测试集合与预处理：通过修改 search-engine/systems.py 来使用不同的测试集合或调整预处理步骤。
- 排名模型与数据集：可更改默认的 BM25 排名模型和 "argsme/2020-04-01/touche-2020-task-1" 数据集。
- 文档字段处理：可根据所用集合的数据字段调整索引创建和搜索结果项（如 title, argument, source_title, date, docid）的构建逻辑。
- 前端显示适配：若更改数据字段名，需相应调整 search-app/templates/search.html 中的显示字段。

平台部署与运行

部署方式：使用 Docker Compose。
运行命令：docker-compose up --build
前端访问：构建完成后，可通过 http://[服务器IP地址]:7001/ 访问前端。

搜集汇总

数据集介绍

构建方式

在交互信息检索领域，构建能够反映真实用户行为的数据集对于推动研究至关重要。LISP数据集的构建采用了一项精心设计的用户研究，招募了61名参与者，在受控实验室环境下进行了122次搜索会话。研究采用被试内设计，每位参与者需针对高兴趣和无兴趣的两个争议性话题进行探索性搜索，任务是为撰写观点性文章收集正反两方面的论据。数据收集过程整合了详尽的交互日志记录，包括查询提交、文档点击、页面导航等事件，并同步采集了用户的人口统计学信息、搜索专业知识、主题兴趣评分以及通过远程进行的感知速度测试结果。为确保数据的可重用性，整个研究设计、基础设施（即可记录的交互式搜索平台）以及生成的数据均遵循了高标准的可重用性规范，并提供了完整的文档说明。

使用方法

LISP数据集为交互信息检索的实证研究与计算建模提供了多方面的应用途径。研究者可利用其丰富的交互日志和用户特征数据，深入分析感知速度、主题兴趣等个体与情境变量对搜索策略、交互模式及任务表现的影响机制。在建模方面，该数据集可作为开发和验证用户模拟器的基准，帮助构建更贴合真实用户多样性（如认知差异、兴趣水平）的行为模型，从而提升模拟实验的生态效度。配套发布的‘lisp’可记录交互式搜索平台允许研究者直接复用或根据新实验需求进行定制，以开展类似的用户研究，加速实验范式的迭代与比较。数据集的所有资源均以开放获取形式发布，鼓励社区进行资源复用、结果验证与跨研究比较，共同推动用户中心式检索评估与系统个性化策略的发展。

背景与挑战

背景概述

在交互式信息检索领域，深入理解人类搜索行为受到高质量、可复用数据资源稀缺的制约。LISP数据集由德国杜伊斯堡-埃森大学、科隆应用技术大学及意大利帕多瓦大学的研究团队于2025年联合发布，旨在填补这一空白。该数据集的核心研究问题聚焦于探索个体认知特征与情境因素如何共同塑造用户的搜索交互模式，特别是感知速度与主题兴趣对搜索策略的影响。通过整合61名参与者的详细交互日志、感知速度测试结果、主题兴趣评分及人口统计信息，LISP为IIR社区提供了一个兼具深度与广度的基准资源，其完全开源的研究设计、基础设施与数据档案，显著提升了该领域研究的可复现性与资源复用水平，对推动用户模拟器的验证与个性化搜索系统的发展具有重要价值。

当前挑战

LISP数据集致力于应对交互式信息检索领域的两大核心挑战。其一，在解决领域问题层面，传统用户行为模型往往基于简化假设，缺乏对个体差异与情境动态的真实刻画，而LISP通过引入感知速度、兴趣等多维度用户特征，旨在为开发能够适应复杂用户变体的、更逼真的用户模拟器提供验证基准。其二，在数据集构建过程中，研究团队面临多重实际困难：为确保资源的高度可复用性，需遵循最高标准对研究设计、基础设施与数据进行结构化归档与开放共享，其中可适配不同研究场景的交互日志平台基础设施的开发与文档化尤为艰巨；同时，在数据收集时需平衡实验控制与生态效度，并在严格遵循数据匿名化与隐私保护规范的前提下，获取丰富、可靠的用户侧写信息。

常用场景

经典使用场景

在交互式信息检索领域，LISP数据集为探究人类搜索行为的微观机制提供了珍贵的研究素材。该数据集通过记录用户在争议性话题论证检索任务中的完整交互序列，包括查询提交、文档浏览、立场标记等详细操作，并同步采集了用户的感知速度、主题兴趣度及人口统计学信息。这使得研究者能够深入分析个体认知差异与情境因素如何共同塑造搜索策略与决策过程，为构建更精细的用户行为模型奠定实证基础。

解决学术问题

LISP数据集有效应对了交互式信息检索研究中长期存在的资源可复用性与数据透明度挑战。它通过提供结构化的交互日志、完备的实验设计方案以及可适配的研究平台，解决了以往研究中用户特征变量记录不足、实验设置难以复现的痛点。该数据集使得学者能够系统考察感知速度、主题兴趣等认知与情境变量对搜索行为的影响机制，为验证用户模拟器的真实性提供了可靠的基准数据，推动了IIR领域向可重复、可累积的科学研究范式演进。

实际应用

该数据集的实际价值延伸至个性化搜索系统与自适应界面的设计与优化。通过揭示不同认知特质与兴趣水平的用户在论证检索任务中的行为差异，LISP数据集能够为开发面向特定用户群体的检索算法提供依据。例如，系统可根据用户的感知速度调整结果呈现密度，或依据其兴趣水平动态优化查询建议策略。此外，其附带的可日志化交互搜索平台为教育机构与企业开展内部用户研究提供了即用型基础设施，显著降低了行为数据采集的技术门槛。

数据集最近研究