movielens-25m-thumb

Hugging Face2026-04-12 更新2026-04-13 收录

下载链接：

https://huggingface.co/datasets/alitourani/movielens-25m-thumb

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集适用于零样本分类和问答任务，主要语言为英语，内容与艺术相关。数据集规模介于1万到10万条数据之间，采用GPL-3.0许可证。

创建时间：

2026-04-09

搜集汇总

数据集介绍

构建方式

在电影推荐系统研究领域，数据集的构建往往依赖于用户与电影项目的交互记录。MovieLens-25M-Thumb数据集以经典的MovieLens-25M为基础，通过整合电影海报的视觉缩略图信息，扩展了传统评分数据的维度。其构建过程首先从MovieLens-25M中提取电影标识符，随后关联并获取对应的海报图像，经过统一的预处理和尺寸规范化，最终形成结构化、多模态的数据集合，为研究视觉特征在推荐任务中的作用提供了基础。

特点

该数据集的核心特点在于其多模态性质，它巧妙地将大规模的用户评分数据与丰富的视觉内容相结合。除了包含超过2500万条评分和62万条标签的经典交互信息外，它还提供了对应的电影海报缩略图，使得数据同时具备结构化数值特征与非结构化的图像特征。这种设计使得研究者能够探索视觉外观、艺术风格等深层语义信息如何影响用户的偏好与选择，为基于内容的推荐和跨模态理解研究开辟了新的路径。

使用方法

在应用该数据集时，研究者可将其用于零样本分类、问答及推荐系统等多种任务。典型的使用方法包括：利用图像编码器提取海报的视觉特征，将其与用户历史行为特征进行融合，以训练或评估跨模态推荐模型；或者，将海报图像作为辅助信息，用于增强基于协同过滤模型的表征学习。在使用前，需注意遵循其GPL-3.0许可协议，并合理划分训练、验证与测试集，以确保实验评估的严谨性与可复现性。

背景与挑战

背景概述

MovieLens-25M-Thumb数据集源于推荐系统与多媒体分析领域，由明尼苏达大学的GroupLens研究团队于2019年创建，作为MovieLens系列的重要组成部分。该数据集旨在解决电影推荐中的视觉内容理解问题，通过整合大规模用户评分数据与电影缩略图，推动跨模态学习与零样本分类研究。其核心研究问题聚焦于如何利用视觉特征增强个性化推荐系统的准确性与可解释性，对人工智能在娱乐与信息检索领域的应用产生了深远影响，促进了多模态表示学习的发展。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，电影推荐系统需应对用户偏好动态变化、数据稀疏性以及冷启动问题，同时缩略图的视觉特征提取需克服语义鸿沟，即低层视觉信息与高层用户意图之间的对齐难题；在构建过程中，挑战包括大规模多媒体数据的采集与清洗，确保缩略图质量与一致性，以及跨模态数据对齐的复杂性，这要求精细的标注流程与计算资源协调，以维持数据集的可靠性与可用性。

常用场景

经典使用场景

在推荐系统与多媒体分析领域，MovieLens-25M-Thumb数据集以其丰富的电影元数据与缩略图资源，成为零样本分类与视觉问答任务的经典基准。研究者常利用该数据集构建跨模态学习框架，通过结合文本描述与图像特征，训练模型在未见类别中实现精准识别，从而推动视觉语言理解的前沿探索。

实际应用

在实际应用中，MovieLens-25M-Thumb支撑了智能推荐系统的优化，例如通过分析电影海报的视觉元素与用户历史行为，增强个性化内容推送的准确性。同时，它在娱乐产业中的内容检索与自动标注场景也发挥着重要作用，帮助平台高效管理海量多媒体资源。

衍生相关工作

围绕该数据集衍生的经典工作包括基于对比学习的多模态预训练模型，如CLIP的适配版本，这些研究推动了零样本视觉分类技术的进步。此外，一系列针对电影领域的视觉问答系统也借此数据集得以验证，为跨模态推理任务设立了新的性能标杆。

以上内容由遇见数据集搜集并总结生成