five

MovieLens100k|电影推荐系统数据集|用户行为分析数据集

收藏
github2023-12-04 更新2024-05-31 收录
电影推荐系统
用户行为分析
下载链接:
https://github.com/ayhem18/MovieLens_RecSys
下载链接
链接失效反馈
资源简介:
该数据集用于构建电影推荐系统,包含电影的ID、标题、IMDb链接、发行日期和19个代表不同类型的二进制列。数据集中的电影主要在1990年至2000年间发布,可能导致对近期电影的偏见。此外,数据集还包含了用户数据,包括ID、年龄、性别、职业和邮政编码。

This dataset is designed for constructing a movie recommendation system, encompassing movie IDs, titles, IMDb links, release dates, and 19 binary columns representing various genres. The movies in the dataset were predominantly released between 1990 and 2000, which may introduce a bias towards films from that era. Additionally, the dataset includes user data, featuring IDs, ages, genders, occupations, and zip codes.
创建时间:
2023-12-01
原始信息汇总

数据集概述

数据集名称

  • MovieLens100k

数据集内容

  • 电影数据:包含24个初始列,包括电影ID、标题、IMDb链接、发行日期和19个代表不同类型的二进制列。
  • 用户数据:包含4个字段,包括用户ID、年龄、性别、职业和邮政编码。
  • 评分数据:记录用户对电影的评分情况。

数据集特点

  • 电影数据
    • 电影标题可能存在误导性,需要更多上下文信息如描述或简短摘要。
    • IMDb链接有助于数据挖掘,但因反爬措施难以大规模提取信息。
    • 发行日期简化为年份,大多数电影在1990至2000年间发布。
    • 类型列显示不平衡和稀疏性,仅5%的电影有超过4个类型标签。
  • 用户数据
    • 年龄分布接近高斯分布,有利于统计分析。
    • 邮政编码信息因独特值过多且与电影口味关联不大而被丢弃。
    • 职业信息通过特征工程处理,用于提升用户表示。
  • 评分数据
    • 评分分布高度偏斜,多数电影被评分次数较少,少数电影被频繁评分。

数据集应用

  • 用于构建基于内容的推荐系统,但由于电影特征表达不足,最终采用协同过滤方法。
  • 模型包括用户和电影的嵌入层、线性块、连接层和最终的分类与回归头,用于预测用户是否观看电影及评分。

模型评估

  • 使用均方误差(MSE)、召回率@k(R@k)、精确率@k(P@k)和平均精度均值(MAP)作为评估指标。
  • 模型在测试集上的表现不佳,主要受限于数据质量,包括评分的偏斜性和特征的稀疏性。
AI搜集汇总
数据集介绍
main_image_url
构建方式
MovieLens100k数据集的构建基于用户对电影的评分数据,涵盖了用户的基本信息、电影的详细信息以及用户与电影之间的交互数据。数据集包括电影的ID、标题、IMDb链接、发布年份以及19个二进制列表示的不同电影类型。用户数据则包括用户的ID、年龄、性别、职业和邮政编码。通过这些数据,构建了一个包含用户与电影交互的评分矩阵,为推荐系统的开发提供了基础。
特点
MovieLens100k数据集的特点在于其包含了丰富的用户和电影信息,尽管电影的类型数据较为稀疏,但通过二进制编码的方式,仍然能够捕捉到电影的多样化特征。用户数据中的年龄、性别和职业信息为个性化推荐提供了可能。此外,数据集的评分分布呈现出明显的偏斜性,大多数电影的评分次数较少,这为推荐系统的构建带来了挑战。
使用方法
使用MovieLens100k数据集时,首先需要通过data_preparation目录下的脚本下载和预处理数据。接着,可以通过models目录下的train.py脚本训练推荐模型,并使用recommend.py脚本对测试数据进行推荐。最后,通过benchmark目录下的evaluate.py脚本评估模型的性能。评估指标包括均方误差、召回率、精确率和平均精度等,这些指标可以帮助开发者全面了解模型的推荐效果。
背景与挑战
背景概述
MovieLens100k数据集是由Ayhem Bouabid创建的,旨在构建一个基于协同过滤的推荐系统。该数据集包含了用户对电影的评分信息,以及电影的元数据,如标题、发布年份和类型等。通过分析这些数据,研究人员可以探索用户偏好与电影特征之间的关系,从而为电影推荐系统提供基础。MovieLens100k数据集的创建为推荐系统领域的研究提供了宝贵的资源,尤其是在协同过滤和深度学习结合的应用方面,具有重要的研究价值。
当前挑战
MovieLens100k数据集在构建推荐系统时面临多项挑战。首先,电影数据的特征表示不够丰富,尤其是电影标题和类型信息的稀疏性,限制了内容推荐系统的有效性。其次,用户数据的多样性,如年龄、性别和职业等特征,虽然提供了一定的用户画像,但其与电影偏好之间的关联性较弱。此外,数据集中的评分分布偏斜,许多电影仅被少量用户评分,导致模型难以准确捕捉用户偏好。最后,数据集规模较小,增加了模型过拟合的风险,尤其是在深度学习模型的应用中。
常用场景
经典使用场景
MovieLens100k数据集最经典的使用场景在于构建和评估推荐系统,特别是协同过滤推荐系统。通过分析用户对电影的评分数据,研究者可以训练模型来预测用户对未观看电影的评分,从而为用户推荐可能感兴趣的电影。这种基于用户行为的推荐方法在个性化推荐系统中具有广泛的应用。
实际应用
在实际应用中,MovieLens100k数据集被广泛用于开发和测试电影推荐系统。例如,在线流媒体平台可以利用该数据集训练模型,为用户推荐个性化的电影内容,从而提高用户满意度和平台的用户粘性。此外,该数据集还可用于教育领域,帮助学生和研究人员理解推荐系统的基本原理和实现方法。
衍生相关工作
基于MovieLens100k数据集,许多经典的研究工作得以展开,包括但不限于协同过滤算法的改进、深度学习在推荐系统中的应用以及用户行为分析。例如,研究者通过该数据集验证了基于深度学习的推荐模型的有效性,并提出了多种改进方案。这些工作不仅丰富了推荐系统的理论体系,也为实际应用提供了有力的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录