cropS123/data_sample_1000

Name: cropS123/data_sample_1000
Creator: cropS123
Published: 2026-04-25 12:54:22
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/cropS123/data_sample_1000

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含1000条用户-物品交互记录的样本数据集，用于TAAC2026竞赛。数据集采用扁平列布局，所有特征都作为顶级列存储。数据集包含120列，分为6类：ID和标签、用户整数特征、用户密集特征、物品整数特征和领域序列特征。ID和标签列包含核心标识符、标签和时间戳；用户整数特征包括标量和数组类型的整数特征；用户密集特征包括浮点数组特征；物品整数特征包括标量和数组类型的整数特征；领域序列特征包括来自4个行为领域的序列特征。数据集文件为demo_1000.parquet，大小约为39 MB。

A sample dataset containing 1000 user-item interaction records for the TAAC2026 competition. This dataset uses a flat column layout — all features are stored as individual top-level columns instead of nested structs/arrays. The dataset contains 120 columns, divided into 6 categories: ID & Label, User Int Features, User Dense Features, Item Int Features, and Domain Sequence Features. The ID & Label columns include core identifiers, label, and timestamp; User Int Features include scalar and array-type integer features; User Dense Features include float-array features; Item Int Features include scalar and array-type integer features; Domain Sequence Features include sequence features from 4 behavioral domains. The dataset file is demo_1000.parquet, with a size of approximately 39 MB.

提供机构：

cropS123

搜集汇总

数据集介绍

构建方式

该数据集源自TAAC2026竞赛，包含1000条用户-物品交互记录，存储为Parquet格式。其构建采用扁平列布局，摒弃嵌套结构，将所有特征作为顶层独立列呈现，共计120列。数据列涵盖六类：核心标识与标签（5列）、用户整数特征（46列，含标量与数组）、用户稠密特征（10列，浮点数组）、物品整数特征（14列，含标量与数组）以及来自四个行为领域的序列特征（45列，均为整数列表）。

使用方法

用户可通过Pandas或PyArrow直接读取Parquet文件，使用`pd.read_parquet('demo_1000.parquet')`获取包含1000行120列的DataFrame。亦可通过Hugging Face `datasets`库调用`load_dataset('TAAC2026/data_sample_1000')`加载数据集，便于集成到现有深度学习工作流。数据可直接用于推荐系统模型的训练与评估，尤其适用于用户行为理解与个性化排序任务。

背景与挑战

背景概述

在推荐系统研究领域，用户与物品的交互数据是驱动算法演进的核心燃料。TAAC2026 Demo Dataset（data_sample_1000）由腾讯算法大赛（TAAC2026）于2026年发布，旨在为参赛者和研究人员提供一个标准化、多维度的推荐系统评测基准。该数据集由腾讯研究团队构建，包含1000条用户-物品交互记录，涵盖120维特征，包括用户整数特征、密集特征、物品整数特征及来自四个行为域的序列特征，为多模态推荐、序列建模与特征融合等研究问题提供了丰富的实验平台。作为TAAC2026竞赛的官方演示数据，它降低了学术与工业界在推荐系统研究中的数据获取门槛，推动了大规模特征工程与高效建模方法的探索。

当前挑战

该数据集所解决的领域问题核心在于推荐系统的用户行为预测与个性化建模，尤其是如何有效利用异构特征（如稀疏整数特征、密集浮点特征和序列行为数据）进行精准推荐。构建过程中的挑战体现在多个层面：首先，原始日志数据需经过复杂的特征工程，将用户与物品的原始信号对齐为统一的平铺列布局，确保120维特征无缺失且类型一致；其次，来自四个行为域的序列特征长度不一，需设计合理的截断或填充策略以适配模型输入；最后，标签类型与时间戳的精细化处理要求严格避免数据泄露，保证训练与评估的时空一致性。

常用场景

经典使用场景

该数据集源自TAAC2026竞赛，专为推荐系统领域的研究者与从业者量身打造。其经典的用法在于训练和评估基于用户-物品交互的推荐模型，例如协同过滤、深度因子分解机或基于序列的推荐算法。平坦列布局的设计降低了数据预处理的门槛，使得研究者能够快速聚焦于特征工程与模型架构创新，尤其适合探索多域行为序列与密集特征在推荐任务中的融合之道。

解决学术问题

在学术研究中，该数据集致力于解答推荐系统领域若干核心难题。其一，如何有效整合稀疏的用户行为序列与高维的数值型特征，以提升长尾物品的推荐精度。其二，围绕跨域行为建模，该数据提供了来自四个不同域的行为序列，这为研究域间知识迁移与序列依赖关系提供了理想基准。此外，标签类型与时间戳的引入，使因果推断与时序建模成为可能，从而推动可解释推荐与反事实评估等前沿方向的发展。

实际应用

在实际应用中，该数据集的价值体现在多种工业级推荐场景的模拟与优化。例如，在线内容平台可借助此数据训练个性化推荐引擎，实现视频、文章或商品的精准推送。由于数据中包含了丰富的用户密集特征与跨域序列，企业可据此构建多目标推荐系统，在提升点击率的同时兼顾用户留存时长。此外，该数据还能用于A/B测试策略的离线验证，帮助实战团队在有限样本下预判模型上线后的增益效果。

数据集最近研究