Wouter01/RecSys_large
收藏Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Wouter01/RecSys_large
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: articles
features:
- name: article_id
dtype: int32
- name: title
dtype: string
- name: subtitle
dtype: string
- name: published_time
dtype: timestamp[us]
- name: topics
sequence: string
- name: category_str
dtype: string
- name: sentiment_score
dtype: float32
- name: sentiment_label
dtype: string
splits:
- name: train
num_bytes: 32165298
num_examples: 125541
download_size: 17330015
dataset_size: 32165298
- config_name: behaviors
features:
- name: impression_id
dtype: uint32
- name: impression_time
dtype: timestamp[us]
- name: read_time
dtype: float32
- name: article_ids_inview
sequence: int32
- name: article_ids_clicked
sequence: int32
- name: user_id
dtype: uint32
- name: session_id
dtype: uint32
splits:
- name: train
num_bytes: 969823984
num_examples: 12063890
- name: validation
num_bytes: 1053637572
num_examples: 12566385
download_size: 1011407049
dataset_size: 2023461556
- config_name: history
features:
- name: user_id
dtype: uint32
- name: impression_time_fixed
sequence: timestamp[us]
- name: scroll_percentage_fixed
sequence: float32
- name: article_id_fixed
sequence: int32
- name: read_time_fixed
sequence: float32
splits:
- name: train
num_bytes: 171647152
num_examples: 788090
- name: validation
num_bytes: 172024543
num_examples: 791582
download_size: 207894103
dataset_size: 343671695
configs:
- config_name: articles
data_files:
- split: train
path: articles/train-*
- config_name: behaviors
data_files:
- split: train
path: behaviors/train-*
- split: validation
path: behaviors/validation-*
- config_name: history
data_files:
- split: train
path: history/train-*
- split: validation
path: history/validation-*
---
数据集信息如下:
本数据集包含三个配置分支,详细信息分别为:
1. 配置分支:articles(文章)
包含的特征字段及对应数据类型如下:
- `article_id`:文章ID,数据类型为32位有符号整数(int32)
- `title`:文章标题,数据类型为字符串(string)
- `subtitle`:文章副标题,数据类型为字符串(string)
- `published_time`:发布时间,数据类型为微秒级时间戳(timestamp[us])
- `topics`:主题标签,为字符串序列类型
- `category_str`:分类字符串,数据类型为字符串(string)
- `sentiment_score`:情感得分,数据类型为32位浮点型(float32)
- `sentiment_label`:情感标签,数据类型为字符串(string)
数据集划分信息:
- 训练集(train):占用字节数32165298,样本量125541
该配置的下载大小为17330015,数据集总大小为32165298。
2. 配置分支:behaviors(用户行为)
包含的特征字段及对应数据类型如下:
- `impression_id`:曝光ID,数据类型为32位无符号整数(uint32)
- `impression_time`:曝光时间,数据类型为微秒级时间戳(timestamp[us])
- `read_time`:阅读时长,数据类型为32位浮点型(float32)
- `article_ids_inview`:待曝光文章ID列表,为32位有符号整数序列
- `article_ids_clicked`:用户点击文章ID列表,为32位有符号整数序列
- `user_id`:用户ID,数据类型为32位无符号整数(uint32)
- `session_id`:会话ID,数据类型为32位无符号整数(uint32)
数据集划分信息:
- 训练集(train):占用字节数969823984,样本量12063890
- 验证集(validation):占用字节数1053637572,样本量12566385
该配置的下载大小为1011407049,数据集总大小为2023461556。
3. 配置分支:history(用户历史)
包含的特征字段及对应数据类型如下:
- `user_id`:用户ID,数据类型为32位无符号整数(uint32)
- `impression_time_fixed`:标准化后的曝光时间序列,数据类型为微秒级时间戳序列
- `scroll_percentage_fixed`:标准化后的页面滚动百分比序列,数据类型为32位浮点型序列
- `article_id_fixed`:标准化后的文章ID序列,数据类型为32位有符号整数序列
- `read_time_fixed`:标准化后的阅读时长序列,数据类型为32位浮点型序列
数据集划分信息:
- 训练集(train):占用字节数171647152,样本量788090
- 验证集(validation):占用字节数172024543,样本量791582
该配置的下载大小为207894103,数据集总大小为343671695。
## 数据集配置文件路径
各配置分支对应的数据文件路径如下:
1. `articles`配置:
- 训练集:`articles/train-*`
2. `behaviors`配置:
- 训练集:`behaviors/train-*`
- 验证集:`behaviors/validation-*`
3. `history`配置:
- 训练集:`history/train-*`
- 验证集:`history/validation-*`
提供机构:
Wouter01
原始信息汇总
数据集概述
数据集配置:articles
- 特征信息:
article_id: 数据类型为int32title: 数据类型为stringsubtitle: 数据类型为stringpublished_time: 数据类型为timestamp[us]topics: 数据类型为sequence: stringcategory_str: 数据类型为stringsentiment_score: 数据类型为float32sentiment_label: 数据类型为string
- 数据分割:
train: 数据大小为32165298字节,示例数量为125541
- 下载大小:
17330015字节 - 数据集大小:
32165298字节
数据集配置:behaviors
- 特征信息:
impression_id: 数据类型为uint32impression_time: 数据类型为timestamp[us]read_time: 数据类型为float32article_ids_inview: 数据类型为sequence: int32article_ids_clicked: 数据类型为sequence: int32user_id: 数据类型为uint32session_id: 数据类型为uint32
- 数据分割:
train: 数据大小为969823984字节,示例数量为12063890validation: 数据大小为1053637572字节,示例数量为12566385
- 下载大小:
1011407049字节 - 数据集大小:
2023461556字节
数据集配置:history
- 特征信息:
user_id: 数据类型为uint32impression_time_fixed: 数据类型为sequence: timestamp[us]scroll_percentage_fixed: 数据类型为sequence: float32article_id_fixed: 数据类型为sequence: int32read_time_fixed: 数据类型为sequence: float32
- 数据分割:
train: 数据大小为171647152字节,示例数量为788090validation: 数据大小为172024543字节,示例数量为791582
- 下载大小:
207894103字节 - 数据集大小:
343671695字节
搜集汇总
数据集介绍

构建方式
在推荐系统研究领域,数据集的构建需精准捕捉用户与内容的交互动态。本数据集通过三个相互关联的配置模块系统性地组织数据:文章元数据模块收录了逾12万条新闻条目,涵盖标题、主题分类及情感分析标签;用户行为模块记录了超过2400万次曝光与点击事件,细致呈现了用户在会话中的实时反馈;用户历史模块则整合了约158万条固定化的长期交互序列,包括滚动深度与阅读时长。这种多维度、时序性的架构,为深度理解用户偏好演化提供了结构化基础。
特点
该数据集的核心特征在于其层次化与细粒度的数据表征。文章数据不仅包含基本语义信息,还引入了情感分数与标签,为内容理解增添了心理维度。行为数据以会话为单位,清晰区分了曝光与点击项目,并辅以精确的时间戳,使得短期兴趣建模成为可能。历史数据进一步将用户长期行为序列化与固定化,通过滚动百分比等指标,微妙地揭示了用户的参与深度。这种从微观交互到宏观模式的全景覆盖,为推荐算法的可解释性与个性化提供了丰富信号。
使用方法
为有效利用该数据集进行推荐系统研发,研究者可遵循模块化处理流程。首先,文章数据可作为内容特征库,用于构建物品嵌入或冷启动模型。行为数据中的训练集与验证集划分,便于直接进行点击率预测等任务的模型训练与评估,其中曝光与点击序列是构建正负样本对的关键。历史数据则适用于序列推荐或长期用户画像建模,其固定化的序列格式便于输入循环神经网络或Transformer架构。通过跨模块关联用户ID与文章ID,可实现从内容理解、会话推荐到长期兴趣挖掘的端到端实验探索。
背景与挑战
背景概述
在推荐系统领域,大规模用户行为数据的积累为个性化服务提供了坚实基础。Wouter01/RecSys_large数据集由相关研究团队构建,旨在通过丰富的文章元数据、用户交互行为及历史记录,深入探索新闻推荐场景下的核心研究问题。该数据集涵盖了文章内容特征、用户点击流及会话历史等多维度信息,为序列推荐、点击率预测及用户兴趣建模等任务提供了重要资源,对推动推荐算法在真实场景中的性能提升产生了显著影响。
当前挑战
该数据集致力于解决新闻推荐系统中的个性化排序与用户长期兴趣捕捉等挑战,其构建过程面临多重困难。在领域层面,如何从稀疏且动态变化的用户行为中准确推断兴趣偏好,并处理冷启动问题,是推荐模型面临的核心难题。在数据构建中,整合多源异构信息(如文章语义、时序交互)并确保数据一致性,同时保护用户隐私与消除偏差,构成了技术实施上的主要障碍。
常用场景
经典使用场景
在推荐系统领域,Wouter01/RecSys_large数据集为个性化内容推荐研究提供了丰富的数据基础。该数据集通过记录用户对新闻文章的浏览、点击及阅读时长等交互行为,构建了用户与物品之间的动态关联图谱。经典使用场景聚焦于训练和评估协同过滤、序列推荐及深度神经网络模型,以预测用户未来可能感兴趣的文章,从而优化信息分发效率。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作,包括基于注意力机制的序列推荐模型、融合用户长期偏好与短期行为的混合推荐框架,以及利用图神经网络挖掘用户-物品高阶关系的探索。这些工作不仅深化了对用户行为模式的理解,还促进了如Transformer、GNN等前沿技术在推荐场景中的创新应用,为领域发展注入了持续动力。
数据集最近研究
最新研究方向
在推荐系统领域,Wouter01/RecSys_large数据集凭借其大规模的用户行为序列与文章内容特征,正推动个性化推荐技术向更精细化的方向发展。当前研究聚焦于利用深度学习模型,如Transformer架构,来捕捉用户长期兴趣与短期偏好的动态演变,从而提升新闻或内容推荐的准确性与时效性。热点事件如生成式人工智能的兴起,促使研究者探索结合内容生成与推荐的新范式,例如通过文章标题、主题和情感标签生成个性化摘要,以增强用户参与度。该数据集的影响在于为序列推荐、多任务学习及可解释性推荐提供了丰富的实验基础,对优化在线内容平台的用户体验具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



