reczoo/Movielens1M_m1

Name: reczoo/Movielens1M_m1
Creator: reczoo
Published: 2023-12-24 01:18:46
License: 暂无描述

Hugging Face2023-12-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/reczoo/Movielens1M_m1

下载链接

链接失效反馈

官方服务：

资源简介：

MovieLens-1M数据集包含1,000,209条匿名评分，涉及约3,900部电影和6,040名MovieLens用户。数据按照LCF工作进行了分割和预处理，分为训练集、验证集和测试集。

提供机构：

reczoo

原始信息汇总

Movielens1M_m1 数据集概述

数据集描述

内容：MovieLens-1M 数据集包含 1,000,209 个匿名用户对大约 3,900 部电影的评分，由 6,040 名 MovieLens 用户提供。
处理：数据集按照 LCF 工作流程被分割和预处理成训练集、验证集和测试集。

数据格式

用户交互数据：每个用户对应一个交互项目的列表，例如：[[item1, item2], [item3, item4, item5], ...]

数据完整性校验

md5sum 校验： bash cdd3ad819512cb87dad2f098c8437df2 test_data.json 4229bc5369f943918103daf7fd92e920 train_data.json 60be3b377d39806f80a43e37c94449f6 validation_data.json

搜集汇总

数据集介绍

构建方式

在推荐系统研究领域，数据集的构建方式直接影响模型训练与评估的可靠性。Movielens1M_m1数据集源自经典的MovieLens-1M数据，包含了约6040名用户对3900部电影的100余万条匿名评分记录。该数据集严格遵循LCF研究工作的预处理流程，将原始交互数据划分为训练集、验证集与测试集，确保了数据分割的科学性与一致性。每个用户的历史交互被组织为物品序列列表，如[[item1, item2], [item3, item4, item5], ...]，这种结构化表示便于模型直接学习用户行为模式，为协同过滤与图神经网络等推荐算法提供了标准化的输入格式。

特点

该数据集在推荐系统领域具有显著的代表性与实用性。其核心特点在于规模适中且数据质量较高，涵盖了丰富的用户-物品交互信息，能够有效支撑各类推荐算法的实验验证。数据经过精心预处理，消除了噪声与不一致性，同时保持了原始评分的匿名性与真实性。此外，数据集遵循学界公认的划分标准，使得不同研究之间的结果具备可比性，促进了推荐系统领域的学术交流与进展。多篇高水平学术论文，如ICML与CIKM会议上的研究成果，均采用此数据集进行模型评估，进一步印证了其在推荐系统研究中的权威地位与广泛适用性。

使用方法

研究人员在使用Movielens1M_m1数据集时，可通过HuggingFace平台直接下载预处理后的JSON格式文件，包括训练、验证与测试三部分。数据以用户为中心组织，每个条目对应一个用户及其交互物品序列，便于直接加载至推荐系统框架中进行模型训练。典型应用流程包括：首先解析JSON文件构建用户-物品交互图或序列数据，随后利用训练集学习用户偏好表示，并在验证集上调整超参数以优化模型性能，最终在测试集上评估推荐效果的准确性。为确保数据完整性，建议使用提供的md5sum校验码验证文件，避免数据传输过程中的损坏。该数据集已集成于RecZoo项目生态，为协同过滤、图卷积网络等前沿推荐算法提供了便捷高效的实验基础。

背景与挑战

背景概述

在推荐系统领域，协同过滤技术长期面临数据稀疏性与可扩展性的核心难题。MovieLens-1M数据集由明尼苏达大学GroupLens研究团队于2003年创建，作为早期公开的基准数据集，它收录了6,040名用户对约3,900部电影的百万级匿名评分。该数据集旨在为个性化推荐算法提供标准化评估平台，其构建推动了矩阵分解、深度学习等推荐模型的发展，成为学术界与工业界验证算法性能的基石。通过模拟真实用户行为分布，MovieLens-1M持续赋能推荐系统的公平比较与创新突破。

当前挑战

MovieLens-1M数据集所针对的推荐系统领域，核心挑战在于如何从稀疏且噪声明显的用户交互数据中挖掘潜在偏好，并解决冷启动与长尾物品推荐问题。在数据构建过程中，研究团队需平衡用户隐私保护与数据可用性，通过匿名化处理确保伦理合规；同时，原始评分数据的时序动态性、评分偏差修正及正负样本均衡划分，均为预处理阶段的关键难点。此外，数据集的静态特性难以完全模拟现实场景中用户兴趣的演化，限制了时序感知推荐模型的验证深度。

常用场景

经典使用场景

在推荐系统领域，Movielens1M_m1数据集作为协同过滤研究的基准，常被用于评估用户-物品交互建模的算法性能。该数据集通过模拟真实电影评分场景，为研究者提供了丰富的用户行为序列，便于探索隐式反馈下的个性化推荐机制。其经典应用体现在训练和验证图神经网络、矩阵分解等模型，以优化推荐准确性和多样性。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作，例如Graph Convolutional Network with Low-pass Collaborative Filters（LCF）提出了图卷积网络的简化框架；SimpleX和UltraGCN则进一步探索了协同过滤的强基线模型和超简化架构。这些工作不仅推动了推荐系统算法的创新，还为后续研究提供了可复现的实验基准。

数据集最近研究