reczoo/KuaiVideo_x1
收藏Hugging Face2023-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/KuaiVideo_x1
下载链接
链接失效反馈官方服务:
资源简介:
# KuaiVideo_x1
+ **Dataset description:**
The raw dataset is released by the Kuaishou Competition in the China MM 2018 conference, which aims to predict users' click probabilities for new micro-videos. In this dataset, there are multiple types of interactions between users and micro-videos, such as "click", "not click", "like", and "follow". Particularly, "not click" means the user did not click the micro-video after previewing its thumbnail. Note that the timestamp associated with each behaviour has been processed such that the absolute time is unknown, but the sequential order can be obtained according to the timestamp. For each micro-video, we can access its 2,048-d visual embedding of its thumbnail. In total, 10,000 users and their 3,239,534 interacted micro-videos are randomly selected. We follow the train-test data splitting from the [ALPINE](https://github.com/liyongqi67/ALPINE) work. In this setting, we filter infrequent categorical features with the threshold min_category_count=10. We further set the maximal length of user behavior sequence to 100.
The dataset statistics are summarized as follows:
| Dataset Split | Total | #Train | #Validation | #Test |
| :--------: | :-----: |:-----: | :----------: | :----: |
| KuaiVideo_x1 | 13,661,383 | 10,931,092 | | 2,730,291 |
+ **Source:** https://www.kuaishou.com/activity/uimc
+ **Download:** https://huggingface.co/datasets/reczoo/KuaiVideo_x1/tree/main
+ **RecZoo Datasets:** https://github.com/reczoo/Datasets
+ **Used by papers:**
- Yongqi Li, Meng Liu, Jianhua Yin, Chaoran Cui, Xinshun-Xu, and Liqiang Nie. [Routing Micro-videos via A Temporal Graph-guided Recommendation System](https://liyongqi67.github.io/papers/MM2019_Routing_Micro_videos_via_A_Temporal_Graph_guided_Recommendation_System.pdf). In MM 2020.
- Jieming Zhu, Guohao Cai, Junjie Huang, Zhenhua Dong, Ruiming Tang, Weinan Zhang. [ReLoop2: Building Self-Adaptive Recommendation Models via Responsive Error Compensation Loop](https://arxiv.org/abs/2306.08808). In KDD 2023.
+ **Check the md5sum for data integrity:**
```bash
$ md5sum train.csv test.csv
16f13734411532cc313caf2180bfcd56 train.csv
ba26c01caaf6c65c272af11aa451fc7a test.csv
```
# KuaiVideo_x1
+ **数据集描述:**
本原始数据集由2018年中国多媒体大会(China MM 2018)中的快手竞赛发布,其任务为预测用户对新上线短视频的点击概率。本数据集包含用户与短视频之间的多种交互类型,例如“点击”“未点击”“点赞”以及“关注”。其中“未点击”特指用户预览短视频缩略图后未执行点击操作的行为。请注意,所有交互行为对应的时间戳已做脱敏处理,无法获取绝对时间,但可通过时间戳确定交互的先后顺序。每个短视频均附带其缩略图的2048维视觉嵌入特征。数据集共随机选取了10000名用户及其共3239534条交互短视频记录。我们沿用了ALPINE研究工作中的训练集-测试集划分方式。在此实验设置下,我们以min_category_count=10为阈值过滤低频类别特征,并将用户行为序列的最大长度设置为100。
数据集统计信息汇总如下:
| 数据集划分 | 总计 | 训练集样本数 | 验证集样本数 | 测试集样本数 |
| :--------: | :-----: |:-----: | :----------: | :----: |
| KuaiVideo_x1 | 13,661,383 | 10,931,092 | | 2,730,291 |
+ **来源:** https://www.kuaishou.com/activity/uimc
+ **下载地址:** https://huggingface.co/datasets/reczoo/KuaiVideo_x1/tree/main
+ **RecZoo数据集仓库:** https://github.com/reczoo/Datasets
+ **引用论文:**
- 李勇奇、刘萌、尹建华、崔超然、徐新顺、聂礼强. [基于时序图引导推荐系统的短视频分发](https://liyongqi67.github.io/papers/MM2019_Routing_Micro_videos_via_A_Temporal_Graph_guided_Recommendation_System.pdf). 发表于2020年ACM多媒体大会(MM 2020)。
- 朱杰明、蔡国豪、黄俊杰、董振华、唐瑞明、张维南. [ReLoop2:基于响应式误差补偿循环构建自适应推荐模型](https://arxiv.org/abs/2306.08808). 发表于2023年ACM SIGKDD知识发现与数据挖掘大会(KDD 2023)。
+ **数据完整性MD5校验:**
bash
$ md5sum train.csv test.csv
16f13734411532cc313caf2180bfcd56 train.csv
ba26c01caaf6c65c272af11aa451fc7a test.csv
提供机构:
reczoo
原始信息汇总
KuaiVideo_x1
数据集描述
KuaiVideo_x1数据集由快手在2018年中国多媒体大会(China MM 2018)上发布,旨在预测用户对新微视频的点击概率。该数据集包含用户与微视频之间的多种交互类型,如“点击”、“未点击”、“喜欢”和“关注”。特别地,“未点击”表示用户在预览视频缩略图后未点击该视频。需要注意的是,每个行为的时间戳已经过处理,因此绝对时间未知,但可以根据时间戳获得顺序。对于每个微视频,可以访问其2,048维的缩略图视觉嵌入。总共随机选择了10,000名用户及其3,239,534个交互的微视频。数据集遵循ALPINE工作的训练-测试数据分割方式,并过滤了出现频率低于10次的分类特征,同时将用户行为序列的最大长度设置为100。
数据集统计
| 数据集分割 | 总计 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|---|
| KuaiVideo_x1 | 13,661,383 | 10,931,092 | 2,730,291 |
数据完整性校验
bash $ md5sum train.csv test.csv 16f13734411532cc313caf2180bfcd56 train.csv ba26c01caaf6c65c272af11aa451fc7a test.csv
搜集汇总
数据集介绍

构建方式
KuaiVideo_x1数据集的构建以快手竞赛在2018年中国MM会议发布的原始数据为基础,旨在预测用户对新型微视频的点击概率。该数据集涵盖了用户与微视频之间的多种交互类型,如点击、未点击、点赞和关注。数据集通过处理时间戳以保留行为序列的顺序关系,同时去除绝对时间信息。每个微视频均提供2048维的视觉摘要嵌入向量。在数据集构建过程中,选取了10,000名用户及其3,239,534个互动过的微视频,并遵循ALPINE工作的数据划分策略,对不频繁的类别特征进行过滤,并设定用户行为序列的最大长度为100。
特点
本数据集的特点在于,它详细记录了用户与微视频的交互行为,并提供了丰富的用户和视频特征。数据集按照训练集和测试集进行划分,总计包含13,661,383条互动记录,其中训练集有10,931,092条。数据集的构建旨在解决微视频推荐问题,为研究者和工程师提供了宝贵的实验资源。此外,该数据集在多个学术研究中得到应用,证明了其在学术界的实用价值。
使用方法
使用KuaiVideo_x1数据集时,用户可以访问HuggingFace的官方仓库进行数据下载。数据集以CSV格式存储,可以直接用于数据分析和模型训练。为了确保数据完整性,可以使用提供的md5sum值进行校验。用户在处理数据时,需遵循原始的数据划分策略,并注意数据集中的时间戳已经过处理,仅保留行为顺序信息。此外,用户应参考相关学术论文中提及的数据预处理和模型构建步骤,以实现高效的微视频推荐算法。
背景与挑战
背景概述
KuaiVideo_x1数据集源于2018年中国MM会议的快手竞赛,旨在预测用户对于新微视频的点击概率。该数据集由快手公司提供,包含了用户与微视频之间的多种互动类型,如点击、未点击、点赞和关注等。数据集经过预处理,保留了用户行为序列的顺序性,而忽略了绝对时间信息。该数据集的构建,为微视频推荐系统的研究提供了重要的基础数据,其研究成果在学术界得到了应用和引用,如李勇奇等人在MM 2020发表的论文,以及朱杰明等人在KDD 2023的论文。
当前挑战
在研究领域中,KuaiVideo_x1数据集面临的挑战主要包括如何准确预测用户对微视频的点击行为,以及如何处理和利用用户行为序列中的时间信息。在构建过程中,数据集的挑战还涉及到如何处理大量的交互数据,保持数据的有效性和可用性,同时确保数据集的多样性和代表性。此外,数据集中对于不频繁出现的分类特征进行了过滤,以及用户行为序列长度的限制,这些都是数据预处理和模型构建中需要考虑的问题。
常用场景
经典使用场景
在多媒体领域,尤其是微视频推荐系统中,reczoo/KuaiVideo_x1数据集被广泛应用于预测用户对新微视频的点击概率。该数据集提供了用户与微视频之间的多种交互类型,如点击、未点击、点赞和关注,为构建精确的推荐算法提供了丰富的行为特征和视觉嵌入信息。
解决学术问题
reczoo/KuaiVideo_x1数据集解决了如何在缺乏绝对时间戳的情况下,利用用户行为序列进行时序建模的学术难题。它为研究人员提供了处理用户与内容互动的复杂模式的机会,进而提高了推荐系统的时序感知能力。
衍生相关工作
基于reczoo/KuaiVideo_x1数据集,学术界衍生了一系列相关工作,包括但不限于基于时序图引导的推荐系统、自适应推荐模型等。这些研究进一步拓展了数据集的应用范围,推动了微视频推荐领域的技术进步。
以上内容由遇见数据集搜集并总结生成



