ClueWeb-Reco

Hugging Face2025-05-11 更新2025-05-12 收录

下载链接：

https://huggingface.co/datasets/cx-cmu/ClueWeb-Reco

下载链接

链接失效反馈

官方服务：

资源简介：

ClueWeb-Reco是一个推荐系统数据集，包含两种格式的数据split：纯交互格式和按ClueWeb ID列表排序的格式。纯交互格式包括验证集和测试集的输入文件以及验证集的地面真实值文件，而测试集的地面真实值是隐藏的。排序格式同样包括验证集和测试集的输入和地面真实值。数据集还包括一个映射文件，用于将ClueWeb22官方文档ID映射到数据集内部的文档ID。该数据集可用于验证和测试推荐系统的性能，并遵循MIT许可证。

创建时间：

2025-05-08

原始信息汇总

ClueWeb-Reco数据集概述

数据集基本信息

许可证: MIT
数据文件配置:
- input配置:
  - valid分割: interaction_splits/valid_inter_input.tsv
  - test分割: interaction_splits/test_inter_input.tsv
  - 默认配置: true
- target配置:
  - valid分割: interaction_splits/valid_inter_target.tsv
- mapping配置:
  - 数据文件: cwid_to_id.tsv

数据文件说明

主文件:
- cwid_to_id.tsv: 官方ClueWeb22文档ID与内部文档ID的映射文件

数据分割格式

纯交互格式(interaction_splits):
- valid_inter_input.tsv: 验证集输入数据
- valid_inter_target.tsv: 验证集真实标签
- test_inter_input.tsv: 测试集输入数据(真实标签隐藏)
有序ID列表格式(ordered_id_splits):
- valid_input.tsv: 验证集输入数据
- valid_target.tsv: 验证集真实标签
- test_input.tsv: 测试集输入数据(真实标签隐藏)

实用工具文件

cw_data_processing目录:
- ClueWeb22Api.py: 从官方ClueWeb22文档ID检索文档信息的API
- example_dataset.py: 使用ClueWeb22Api加载输入数据序列的示例

搜集汇总

数据集介绍

构建方式

在信息检索与推荐系统研究领域，ClueWeb-Reco数据集基于大规模网络文档库ClueWeb22构建，通过官方文档标识符与内部标识符的映射关系实现数据整合。其构建过程采用结构化分割策略，将原始文档划分为验证集与测试集的输入及目标文件，并保留交互式与有序标识列表两种格式，确保数据的一致性与可扩展性。

特点

该数据集的核心特点体现在其多模态分割设计与实用工具支持上，既提供交互式分割文件以模拟真实推荐场景中的用户行为序列，又包含有序标识列表格式便于序列化处理。此外，配套的ClueWeb22应用程序接口和数据处理示例增强了数据可访问性，为复杂检索任务的实验部署提供了坚实基础。

使用方法

研究人员可通过加载交互分割或有序标识列表文件直接获取输入与目标数据，利用内置的映射表转换文档标识符以对接ClueWeb22原始内容。借助提供的API工具，能够动态检索文档元信息，并结合示例代码构建端到端的推荐模型流水线，有效支撑模型验证与性能评估。

背景与挑战

背景概述

ClueWeb-Reco数据集作为信息检索与推荐系统领域的重要资源，构建于ClueWeb22大规模网络文档集合之上，由研究机构为推进个性化推荐算法的发展而创建。该数据集聚焦于解决用户与文档交互行为中的序列推荐问题，通过整合真实的网页浏览记录与用户反馈数据，为评估推荐模型的准确性与鲁棒性提供了标准化基准。其设计充分体现了现代推荐系统对动态用户偏好建模的需求，对推动电子商务、内容分发等应用场景的技术革新具有显著影响力。

当前挑战

在推荐系统领域，ClueWeb-Reco致力于应对用户行为序列的稀疏性与动态演化挑战，要求模型从海量异构文档中精准捕捉用户兴趣模式。数据构建过程中，面临原始ClueWeb22语料规模庞大导致的存储与处理复杂度，以及文档标识映射与交互记录对齐的技术难题。同时，确保测试集真值隐藏的评估框架可靠性，还需克服数据泄露风险与跨模态信息融合的障碍。

常用场景

经典使用场景

在信息检索与推荐系统领域，ClueWeb-Reco数据集作为大规模网络文档交互数据的重要资源，主要应用于序列推荐与个性化排序模型的训练与评估。该数据集通过用户交互序列的输入与目标输出分割，为研究者在动态推荐场景下模拟用户行为模式提供了标准化实验框架，有效支撑了基于时序交互的推荐算法开发。

解决学术问题

该数据集显著缓解了推荐系统中长期存在的稀疏交互与动态偏好建模难题。通过提供真实网络环境下的多维度交互记录，研究者能够深入探索隐式反馈建模、跨会话推荐一致性等核心问题，为构建鲁棒且可扩展的推荐理论体系奠定了数据基础，推动了信息检索与机器学习领域的交叉创新。

衍生相关工作

基于该数据集衍生的经典研究包括层次化注意力推荐网络与多模态序列建模框架。这些工作通过融合文档语义特征与交互时序动态，开创了基于图神经网络的会话推荐新范式，后续研究进一步拓展至联邦学习环境下的隐私保护推荐系统，持续推动着个性化服务技术的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集