five

reczoo/MicroVideo1.7M_x1

收藏
Hugging Face2023-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/MicroVideo1.7M_x1
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个由THACIL工作提供的微视频数据集,包含10,986名用户对1,704,880个微视频的12,737,617次互动记录。特征包括用户ID、项目ID、类别以及微视频封面图像的嵌入向量。数据集被分割为训练集和测试集,测试集中的微视频都是新的,与训练集没有重叠,以验证多模态嵌入向量对新微视频的泛化能力。在此设置中,用户行为序列的最大长度被设置为100。

这是一个由THACIL工作提供的微视频数据集,包含10,986名用户对1,704,880个微视频的12,737,617次互动记录。特征包括用户ID、项目ID、类别以及微视频封面图像的嵌入向量。数据集被分割为训练集和测试集,测试集中的微视频都是新的,与训练集没有重叠,以验证多模态嵌入向量对新微视频的泛化能力。在此设置中,用户行为序列的最大长度被设置为100。
提供机构:
reczoo
原始信息汇总

MicroVideo1.7M_x1 数据集概述

数据集描述

MicroVideo1.7M_x1 数据集是由 THACIL 工作提供的微视频数据集,包含 12,737,617 次交互,涉及 10,986 名用户对 1,704,880 个微视频的操作。数据集的特征包括用户 ID、项目 ID、类别以及微视频封面图像的提取图像嵌入向量。需要注意的是,该数据集已被分割,测试集中的项目均为新微视频,与训练集中的项目没有重叠,这有助于验证新微视频的多模态嵌入向量的泛化能力。在此设置中,我们将用户行为序列的最大长度设置为 100。

数据集统计

数据集分割 总计 训练集 验证集 测试集
MicroVideo1.7M_x1 12,737,617 8,970,309 3,767,308

使用该数据集的论文

数据完整性检查

bash $ md5sum train.csv test.csv 936e6612714c887e76226a60829b4e0a train.csv 9417a18304fb62411ac27c26c5e0de56 test.csv

搜集汇总
数据集介绍
main_image_url
构建方式
MicroVideo1.7M_x1数据集由THACIL工作提供,其构建方式包含10,986名用户在1,704,880个微视频上产生的12,737,617条互动数据。该数据集的特点是包含用户ID、项目ID、类别以及微视频封面图像的提取图像嵌入向量。数据集经过精心划分,确保测试集中的项目均为新的微视频,与训练集中的项目无重叠,以验证多模态嵌入向量对新微视频的泛化能力。用户行为序列的最大长度被设置为100。
使用方法
用户可以通过HuggingFace平台提供的链接下载该数据集。使用时,研究者可以依据数据集中的用户互动数据,结合图像嵌入向量,训练并评估微视频推荐模型。数据集的md5sum校验码已提供,以确保数据完整性。在应用前,建议用户仔细阅读数据集的统计信息和相关文献,以充分理解数据集的结构和用途。
背景与挑战
背景概述
MicroVideo1.7M_x1数据集是由THACIL工作提供的微视频数据集,其创建旨在促进微视频点击率预测领域的研究。该数据集汇聚了10,986用户在1,704,880个微视频上产生的12,737,617次互动行为。其特点是包含了用户ID、项目ID、类别以及微视频封面图像的提取图像嵌入向量。该数据集的构建,对于理解和预测用户在微视频平台的行为模式具有重要的研究价值,自2018年MM会议以来,已被多份学术文献引用,对微视频推荐系统的研究领域产生了显著影响。
当前挑战
在研究领域,MicroVideo1.7M_x1数据集面临的挑战主要包括如何提高微视频点击率预测的准确性,特别是在处理新的、未见过的微视频内容时。构建过程中遇到的挑战则涉及数据集的规模、多样性以及用户行为序列的最大长度设置。这些挑战要求研究人员开发能够适应新内容的高泛化能力的多模态嵌入向量,并确保测试集中的微视频与训练集不存在重叠,以验证模型对新微视频的预测能力。
常用场景
经典使用场景
在微观视频推荐领域,MicroVideo1.7M_x1数据集的经典使用场景主要聚焦于微视频点击率预测。该数据集提供了用户与微视频的互动记录,包括用户ID、视频ID、视频分类以及视频封面图片的图像嵌入向量,为构建和评估推荐算法提供了丰富的多模态信息。
解决学术问题
MicroVideo1.7M_x1数据集有效解决了如何利用用户行为序列以及视频内容特征进行微视频推荐的问题。通过区分训练集和测试集中视频的分布,该数据集使得研究者能够验证多模态嵌入向量对于新微视频的泛化能力,进而提升推荐系统的准确性和鲁棒性。
实际应用
在实际应用中,MicroVideo1.7M_x1数据集为短视频平台和社交媒体提供了用户行为分析的坚实基础,有助于优化内容推荐算法,增强用户体验,提高用户留存率和平台活跃度。
数据集最近研究
最新研究方向
MicroVideo1.7M_x1数据集为微视频领域的推荐系统研究提供了丰富的交互数据资源。近期研究集中于微视频点击率预测的时序层次注意力机制,以及通过响应错误补偿环构建自适应性推荐模型,旨在提升推荐系统的时序特征处理能力和对新视频的泛化能力,这对于完善用户微视频体验和推荐算法的优化具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作