five

pinecone/movielens-recent-ratings

收藏
Hugging Face2022-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pinecone/movielens-recent-ratings
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为MovieLens用户评分,包含了约100万条用户评分数据,这些评分来自于MovieLens 25M数据集中约1万部最新电影的评分,涉及超过3万名独立用户。数据集通过从MovieLens 25M数据集中筛选出最新电影并返回这些电影的用户评分来生成。此外,数据集中还包括了相应电影海报的URL。该数据集是构建电影推荐引擎示例的一部分。

This dataset is named MovieLens User Ratings. It contains approximately 1 million user rating records sourced from the ratings of roughly 10,000 latest films in the MovieLens 25M dataset, and covers over 30,000 unique users. The dataset is generated by filtering for latest films from the MovieLens 25M dataset and retrieving their corresponding user ratings. Additionally, the dataset includes the URLs of the matching movie posters. This dataset is part of the resources for building example movie recommendation engines.
提供机构:
pinecone
原始信息汇总

MovieLens User Ratings 数据集概述

基本信息

  • 名称: MovieLens User Ratings
  • 语言: 英语 (en)
  • 语言生成方式: 机器生成
  • 多语言性: 单语种
  • 注释创建者: 机器生成
  • 许可证: 未指定
  • 大小范围: 100K<n<1M
  • 标签:
    • movielens
    • recommendation
    • collaborative filtering

数据集内容

  • 数据内容: 包含约100万用户评分,涉及约10,000部来自MovieLens 25M数据集的最新电影。
  • 用户数量: 超过30,000名独特用户参与评分。
  • 数据来源: 从MovieLens 25M数据集筛选最新电影,提取用户评分。
  • 附加信息: 包含相关电影海报的URL。

应用场景

搜集汇总
数据集介绍
main_image_url
构建方式
在推荐系统研究领域,数据集的构建方法直接影响其科学价值。该数据集源自MovieLens 25M大规模原始数据,通过流式处理技术筛选出约一万部最新电影,并提取超过三十万独立用户对这些影片的评分记录。构建过程中执行了多次数据连接与完整性校验,确保评分数据与电影信息的准确对应,同时整合了每部电影的海报链接,形成了包含约一百万条评分记录的结构化集合。
特点
该数据集的核心特点在于其时效性与多模态属性。作为MovieLens系列的子集,它聚焦于近期电影评分,反映了当代用户的审美偏好与行为模式。数据集不仅包含用户-物品交互矩阵,还创新性地融入了视觉辅助信息——每部电影均附带官方海报链接,为融合协同过滤与内容特征的混合推荐研究提供了实验基础。其规模控制在十万至百万条记录之间,兼具处理效率与数据丰富性。
使用方法
在推荐算法实践中,该数据集可作为构建个性化推荐引擎的基准测试平台。研究者可基于用户评分矩阵训练协同过滤模型,或结合海报链接提取视觉特征实现跨模态推荐。具体操作时,需先解析用户ID、电影ID、评分及海报URL的结构化字段,继而划分训练集与测试集以评估推荐精度。该数据集已集成于向量检索示例项目,支持快速构建端到端的电影推荐系统原型。
背景与挑战
背景概述
在推荐系统领域,协同过滤技术长期依赖于高质量的用户行为数据以捕捉个性化偏好。MovieLens数据集自1997年由明尼苏达大学GroupLens研究团队创建以来,已成为学术界和工业界评估推荐算法性能的基准资源。该数据集通过收集用户对电影的显式评分,为核心研究问题——如何基于历史交互预测用户兴趣——提供了实证基础。Pinecone发布的movielens-recent-ratings子集聚焦于近期电影,延续了MovieLens系列的影响力,为动态环境下的推荐模型优化提供了时序敏感的观测样本。
当前挑战
该数据集旨在应对推荐系统中数据稀疏性与冷启动问题的挑战,即如何在用户-物品交互有限的情况下实现精准预测。构建过程中,从原始MovieLens 25M数据流中筛选近期电影时,需平衡时序新鲜度与数据完整性,确保评分分布的代表性。同时,整合电影海报URL等多媒体信息时,面临外部资源链接稳定性与跨模态对齐的技术难点,这对构建多特征推荐引擎提出了额外要求。
常用场景
经典使用场景
在推荐系统领域,MovieLens用户评分数据集作为协同过滤算法的基准测试资源,广泛应用于个性化电影推荐模型的训练与评估。该数据集通过捕捉用户对近期电影的评分行为,为研究者提供了模拟真实世界用户偏好的动态场景,助力算法在稀疏数据环境下提升预测准确性。
解决学术问题
该数据集有效解决了推荐系统中冷启动、数据稀疏性及时序偏好演化等核心学术问题。通过整合近期电影评分与海报元数据,它为时序协同过滤和跨模态推荐研究提供了结构化实验平台,推动了矩阵分解、深度学习等方法的创新验证,显著提升了推荐质量的学术评估标准。
衍生相关工作
基于此数据集衍生的经典工作包括时序协同过滤模型、跨模态推荐框架及可扩展向量检索系统的开发。这些研究不仅拓展了协同过滤与深度学习的融合路径,还催生了如神经矩阵分解、图神经网络推荐等创新方向,为推荐系统领域的算法演进提供了持续动力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作