five

Movielens-Dataset|电影评分数据集|用户行为分析数据集

收藏
github2024-05-22 更新2024-05-31 收录
电影评分
用户行为分析
下载链接:
https://github.com/MohammedAlawami/Movielens-Dataset
下载链接
链接失效反馈
资源简介:
这些文件包含了大约3,900部电影的1,000,209条匿名评分,这些评分由2000年加入MovieLens的6,040名用户提供。数据集包括用户评分和用户个人信息,用于电影评分预测和用户行为分析。

These files contain 1,000,209 anonymous ratings for approximately 3,900 movies, provided by 6,040 users who joined MovieLens in 2000. The dataset includes user ratings and personal information, which are utilized for movie rating prediction and user behavior analysis.
创建时间:
2019-11-12
原始信息汇总

数据集概述

数据集名称

  • Movielens-Dataset

数据集目的

  • 用于执行探索性数据分析,找出影响电影评分的特征,并构建模型预测电影评分。

数据集内容

  • 包含约3,900部电影的1,000,209条匿名评分,由2000年加入的6,040名MovieLens用户提供。

数据集文件

  1. Ratings.dat

    • 格式:UserID::MovieID::Rating::Timestamp
    • 字段:
      • UserID: 用户唯一标识
      • MovieID: 电影唯一标识
      • Rating: 用户对电影的评分
      • Timestamp: 评分添加时的时间戳
    • 特点:
      • UserID范围:1至6040
      • MovieID范围:1至3952
      • 评分采用5星制(整星评分)
      • 时间戳表示自纪元以来的秒数
      • 每个用户至少有20条评分
  2. Users.dat

    • 格式:UserID::Gender::Age::Occupation::Zip-code
    • 字段:
      • UserID: 用户唯一标识
      • Gender: 性别(M表示男性,F表示女性)
      • Age: 用户年龄
      • Occupation: 用户职业
      • Zip-code: 用户位置的邮政编码
    • 特点:
      • 年龄范围:
        • 1: "Under 18"
        • 18: "18-24"
        • 25: "25-34"
        • 35: "35-44"
        • 45: "45-49"
        • 50: "50-55"
        • 56: "56+"
      • 职业选项:
        • 0: "other" or not specified
        • 1: "academic/educator"
        • 2: "artist”
        • 3: "clerical/admin"
        • 4: "college/grad student"
        • 5: "customer service"
        • 6: "doctor/health care"
        • 7: "executive/managerial"
        • 8: "farmer"
        • 9: "homemaker"
        • 10: "K-12 student"
        • 11: "lawyer"
        • 12: "programmer"
        • 13: "retired"
        • 14: "sales/marketing"
        • 15: "scientist"
        • 16: "self-employed"
        • 17: "technician/engineer"
        • 18: "tradesman/craftsman"
        • 19: "unemployed"
        • 20: "writer”
  3. Movies.dat

    • 格式:MovieID::Title::Genres
    • 字段:
      • MovieID: 电影唯一标识
      • Title: 电影标题
      • Genres: 电影类别
    • 特点:
      • 标题与IMDB提供的标题相同(包括发行年份)
      • 类别由管道分隔,可选自以下类别:
        • Action
        • Adventure
        • Animation
        • Childrens
        • Comedy
        • Crime
        • Documentary
        • Drama
        • Fantasy
        • Film-Noir
        • Horror
        • Musical
        • Mystery
        • Romance
        • Sci-Fi
        • Thriller
        • War
        • Western
      • 部分MovieID可能不对应实际电影,因存在重复或测试条目
      • 电影信息多为手动输入,可能存在错误和 inconsistency

分析任务

  • 导入三个数据集
  • 创建新数据集[Master_Data],包含MovieID, Title, UserID, Age, Gender, Occupation, Rating字段
  • 通过可视化探索数据集,包括用户年龄分布、特定电影评分分析等
  • 进行特征工程,包括处理电影类别字段,创建新的类别特征,分析影响评分的特征,并开发预测模型

数据集特点

  • 数据集包含用户评分、用户信息和电影信息,适合进行电影评分预测和用户行为分析。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Movielens-Dataset的构建基于MovieLens网站上用户自愿提供的匿名评分数据。该数据集包含了1,000,209条评分记录,涉及约3,900部电影,由6,040名用户在2000年加入MovieLens时提供。数据集由三个主要文件组成:Ratings.dat、Users.dat和Movies.dat。Ratings.dat记录了用户对电影的评分和评分时间戳;Users.dat包含了用户的性别、年龄、职业和邮编等人口统计信息;Movies.dat则列出了电影的标题和所属类别。通过合并这些数据,可以创建一个包含MovieID、Title、UserID、Age、Gender、Occupation和Rating等字段的综合数据集,为后续的分析和建模提供了丰富的数据基础。
特点
Movielens-Dataset的显著特点在于其数据的多样性和丰富性。首先,数据集涵盖了广泛的用户群体,年龄跨度从18岁以下到56岁以上,职业类别多达21种,性别信息也包括男性和女性。其次,电影的类别多样,涵盖了18种不同的电影类型,如动作、喜剧、科幻等。此外,数据集中的评分采用5星制,且每个用户至少有20条评分记录,确保了数据的充分性和代表性。这些特点使得该数据集非常适合用于探索性数据分析和机器学习模型的训练。
使用方法
使用Movielens-Dataset时,首先需要导入三个数据文件,并通过MovieID和UserID两个主键进行合并,生成一个包含所有必要字段的综合数据集。随后,可以进行数据探索,如绘制用户年龄分布图、分析特定电影(如《玩具总动员》)的评分情况,以及找出观看量最高的25部电影。在特征工程阶段,可以通过分割电影类别字段来提取所有独特的电影类型,并使用独热编码为每部电影创建单独的类别列。最后,可以利用这些特征构建模型,预测电影评分,从而为电影推荐系统提供支持。
背景与挑战
背景概述
Movielens-Dataset,由MovieLens用户在2000年创建,包含了1,000,209条匿名电影评分数据,涵盖约3,900部电影和6,040名用户。该数据集的核心研究问题在于通过探索性数据分析技术,识别影响电影评分的特征,并构建模型以预测电影评分。此数据集不仅为电影推荐系统提供了宝贵的数据资源,还为研究用户行为和电影偏好提供了丰富的背景信息。其主要研究人员或机构未明确提及,但其对电影推荐系统和用户行为分析领域的影响力不容忽视。
当前挑战
Movielens-Dataset在构建和应用过程中面临多项挑战。首先,数据集中的电影ID存在重复和测试条目,可能导致数据不一致。其次,用户提供的个人信息未经核实,可能影响分析的准确性。此外,电影的分类和标题由人工输入,存在错误和差异。在特征工程方面,如何有效处理多类别电影分类并进行独热编码,以及如何准确预测电影评分,都是该数据集面临的重大挑战。
常用场景
经典使用场景
在电影推荐系统领域,Movielens-Dataset常用于构建和评估推荐算法。通过分析用户对电影的评分,研究者可以识别影响评分的特征,如用户年龄、性别、职业以及电影类型等。经典使用场景包括构建基于内容的推荐系统,通过用户的历史评分数据预测其对未观看电影的评分,从而实现个性化推荐。此外,该数据集还常用于探索性数据分析,以揭示用户群体的年龄分布、特定电影(如‘Toy Story’)的观众评价,以及最受欢迎的电影排名。
衍生相关工作
基于Movielens-Dataset,研究者们开发了多种推荐算法和模型,如协同过滤、矩阵分解和深度学习推荐系统等。这些工作不仅提升了推荐系统的性能,还推动了推荐系统领域的理论研究和技术创新。此外,该数据集还激发了关于用户行为分析和电影市场研究的相关工作,如用户画像构建、电影类型偏好分析和市场细分研究等。这些衍生工作为电影产业和推荐系统领域提供了丰富的理论和实践参考。
数据集最近研究
最新研究方向
在电影推荐系统领域,Movielens-Dataset因其丰富的用户评分和电影信息而备受关注。最新研究方向主要集中在利用深度学习和强化学习技术提升推荐系统的准确性和个性化程度。研究者们通过构建复杂的神经网络模型,分析用户行为和电影特征之间的深层关系,以实现更精准的推荐。此外,结合用户的人口统计信息和观影历史,研究者们正在探索如何通过多模态数据融合提升推荐系统的性能。这些研究不仅有助于提升用户体验,还对电影产业的市场分析和内容创作具有重要指导意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录