Wouter01/RecSys_large

Name: Wouter01/RecSys_large
Creator: Wouter01
Published: 2024-06-07 08:26:06
License: 暂无描述

Hugging Face2024-06-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Wouter01/RecSys_large

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: articles features: - name: article_id dtype: int32 - name: title dtype: string - name: subtitle dtype: string - name: published_time dtype: timestamp[us] - name: topics sequence: string - name: category_str dtype: string - name: sentiment_score dtype: float32 - name: sentiment_label dtype: string splits: - name: train num_bytes: 32165298 num_examples: 125541 download_size: 17330015 dataset_size: 32165298 - config_name: behaviors features: - name: impression_id dtype: uint32 - name: impression_time dtype: timestamp[us] - name: read_time dtype: float32 - name: article_ids_inview sequence: int32 - name: article_ids_clicked sequence: int32 - name: user_id dtype: uint32 - name: session_id dtype: uint32 splits: - name: train num_bytes: 969823984 num_examples: 12063890 - name: validation num_bytes: 1053637572 num_examples: 12566385 download_size: 1011407049 dataset_size: 2023461556 - config_name: history features: - name: user_id dtype: uint32 - name: impression_time_fixed sequence: timestamp[us] - name: scroll_percentage_fixed sequence: float32 - name: article_id_fixed sequence: int32 - name: read_time_fixed sequence: float32 splits: - name: train num_bytes: 171647152 num_examples: 788090 - name: validation num_bytes: 172024543 num_examples: 791582 download_size: 207894103 dataset_size: 343671695 configs: - config_name: articles data_files: - split: train path: articles/train-* - config_name: behaviors data_files: - split: train path: behaviors/train-* - split: validation path: behaviors/validation-* - config_name: history data_files: - split: train path: history/train-* - split: validation path: history/validation-* ---

数据集信息如下：本数据集包含三个配置分支，详细信息分别为： 1. 配置分支：articles（文章）包含的特征字段及对应数据类型如下： - `article_id`：文章ID，数据类型为32位有符号整数（int32） - `title`：文章标题，数据类型为字符串（string） - `subtitle`：文章副标题，数据类型为字符串（string） - `published_time`：发布时间，数据类型为微秒级时间戳（timestamp[us]） - `topics`：主题标签，为字符串序列类型 - `category_str`：分类字符串，数据类型为字符串（string） - `sentiment_score`：情感得分，数据类型为32位浮点型（float32） - `sentiment_label`：情感标签，数据类型为字符串（string）数据集划分信息： - 训练集（train）：占用字节数32165298，样本量125541 该配置的下载大小为17330015，数据集总大小为32165298。 2. 配置分支：behaviors（用户行为）包含的特征字段及对应数据类型如下： - `impression_id`：曝光ID，数据类型为32位无符号整数（uint32） - `impression_time`：曝光时间，数据类型为微秒级时间戳（timestamp[us]） - `read_time`：阅读时长，数据类型为32位浮点型（float32） - `article_ids_inview`：待曝光文章ID列表，为32位有符号整数序列 - `article_ids_clicked`：用户点击文章ID列表，为32位有符号整数序列 - `user_id`：用户ID，数据类型为32位无符号整数（uint32） - `session_id`：会话ID，数据类型为32位无符号整数（uint32）数据集划分信息： - 训练集（train）：占用字节数969823984，样本量12063890 - 验证集（validation）：占用字节数1053637572，样本量12566385 该配置的下载大小为1011407049，数据集总大小为2023461556。 3. 配置分支：history（用户历史）包含的特征字段及对应数据类型如下： - `user_id`：用户ID，数据类型为32位无符号整数（uint32） - `impression_time_fixed`：标准化后的曝光时间序列，数据类型为微秒级时间戳序列 - `scroll_percentage_fixed`：标准化后的页面滚动百分比序列，数据类型为32位浮点型序列 - `article_id_fixed`：标准化后的文章ID序列，数据类型为32位有符号整数序列 - `read_time_fixed`：标准化后的阅读时长序列，数据类型为32位浮点型序列数据集划分信息： - 训练集（train）：占用字节数171647152，样本量788090 - 验证集（validation）：占用字节数172024543，样本量791582 该配置的下载大小为207894103，数据集总大小为343671695。 ## 数据集配置文件路径各配置分支对应的数据文件路径如下： 1. `articles`配置： - 训练集：`articles/train-*` 2. `behaviors`配置： - 训练集：`behaviors/train-*` - 验证集：`behaviors/validation-*` 3. `history`配置： - 训练集：`history/train-*` - 验证集：`history/validation-*`

提供机构：

Wouter01

原始信息汇总

数据集概述

数据集配置：articles

特征信息：
- article_id: 数据类型为 int32
- title: 数据类型为 string
- subtitle: 数据类型为 string
- published_time: 数据类型为 timestamp[us]
- topics: 数据类型为 sequence: string
- category_str: 数据类型为 string
- sentiment_score: 数据类型为 float32
- sentiment_label: 数据类型为 string
数据分割：
- train: 数据大小为 32165298 字节，示例数量为 125541
下载大小： 17330015 字节
数据集大小： 32165298 字节

数据集配置：behaviors

特征信息：
- impression_id: 数据类型为 uint32
- impression_time: 数据类型为 timestamp[us]
- read_time: 数据类型为 float32
- article_ids_inview: 数据类型为 sequence: int32
- article_ids_clicked: 数据类型为 sequence: int32
- user_id: 数据类型为 uint32
- session_id: 数据类型为 uint32
数据分割：
- train: 数据大小为 969823984 字节，示例数量为 12063890
- validation: 数据大小为 1053637572 字节，示例数量为 12566385
下载大小： 1011407049 字节
数据集大小： 2023461556 字节

数据集配置：history

特征信息：
- user_id: 数据类型为 uint32
- impression_time_fixed: 数据类型为 sequence: timestamp[us]
- scroll_percentage_fixed: 数据类型为 sequence: float32
- article_id_fixed: 数据类型为 sequence: int32
- read_time_fixed: 数据类型为 sequence: float32
数据分割：
- train: 数据大小为 171647152 字节，示例数量为 788090
- validation: 数据大小为 172024543 字节，示例数量为 791582
下载大小： 207894103 字节
数据集大小： 343671695 字节

搜集汇总

数据集介绍

构建方式

在推荐系统研究领域，数据集的构建需精准捕捉用户与内容的交互动态。本数据集通过三个相互关联的配置模块系统性地组织数据：文章元数据模块收录了逾12万条新闻条目，涵盖标题、主题分类及情感分析标签；用户行为模块记录了超过2400万次曝光与点击事件，细致呈现了用户在会话中的实时反馈；用户历史模块则整合了约158万条固定化的长期交互序列，包括滚动深度与阅读时长。这种多维度、时序性的架构，为深度理解用户偏好演化提供了结构化基础。

特点

该数据集的核心特征在于其层次化与细粒度的数据表征。文章数据不仅包含基本语义信息，还引入了情感分数与标签，为内容理解增添了心理维度。行为数据以会话为单位，清晰区分了曝光与点击项目，并辅以精确的时间戳，使得短期兴趣建模成为可能。历史数据进一步将用户长期行为序列化与固定化，通过滚动百分比等指标，微妙地揭示了用户的参与深度。这种从微观交互到宏观模式的全景覆盖，为推荐算法的可解释性与个性化提供了丰富信号。

使用方法

为有效利用该数据集进行推荐系统研发，研究者可遵循模块化处理流程。首先，文章数据可作为内容特征库，用于构建物品嵌入或冷启动模型。行为数据中的训练集与验证集划分，便于直接进行点击率预测等任务的模型训练与评估，其中曝光与点击序列是构建正负样本对的关键。历史数据则适用于序列推荐或长期用户画像建模，其固定化的序列格式便于输入循环神经网络或Transformer架构。通过跨模块关联用户ID与文章ID，可实现从内容理解、会话推荐到长期兴趣挖掘的端到端实验探索。

背景与挑战

背景概述

在推荐系统领域，大规模用户行为数据的积累为个性化服务提供了坚实基础。Wouter01/RecSys_large数据集由相关研究团队构建，旨在通过丰富的文章元数据、用户交互行为及历史记录，深入探索新闻推荐场景下的核心研究问题。该数据集涵盖了文章内容特征、用户点击流及会话历史等多维度信息，为序列推荐、点击率预测及用户兴趣建模等任务提供了重要资源，对推动推荐算法在真实场景中的性能提升产生了显著影响。

当前挑战

该数据集致力于解决新闻推荐系统中的个性化排序与用户长期兴趣捕捉等挑战，其构建过程面临多重困难。在领域层面，如何从稀疏且动态变化的用户行为中准确推断兴趣偏好，并处理冷启动问题，是推荐模型面临的核心难题。在数据构建中，整合多源异构信息（如文章语义、时序交互）并确保数据一致性，同时保护用户隐私与消除偏差，构成了技术实施上的主要障碍。

常用场景

经典使用场景

在推荐系统领域，Wouter01/RecSys_large数据集为个性化内容推荐研究提供了丰富的数据基础。该数据集通过记录用户对新闻文章的浏览、点击及阅读时长等交互行为，构建了用户与物品之间的动态关联图谱。经典使用场景聚焦于训练和评估协同过滤、序列推荐及深度神经网络模型，以预测用户未来可能感兴趣的文章，从而优化信息分发效率。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，包括基于注意力机制的序列推荐模型、融合用户长期偏好与短期行为的混合推荐框架，以及利用图神经网络挖掘用户-物品高阶关系的探索。这些工作不仅深化了对用户行为模式的理解，还促进了如Transformer、GNN等前沿技术在推荐场景中的创新应用，为领域发展注入了持续动力。

数据集最近研究