User-Animelist-Dataset

Hugging Face2025-07-18 更新2025-07-19 收录

下载链接：

https://huggingface.co/datasets/mramazan/User-Animelist-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用户动画列表数据集包含了对动画标题的用户评分。数据集中的每个用户至少提供了5个评分，确保了最低程度的参与。数据集包括关于用户和动画的详细信息，适用于推荐系统、用户行为分析以及基于类型的过滤等任务。数据集是新创建的，因此包含了较新的动画。数据以MovieLens格式发布，易于与训练MovieLens数据集的GitHub一起使用。

创建时间：

2025-07-11

原始信息汇总

用户动漫列表数据集概述

数据集基本信息

名称: User Animelist Dataset
许可证: CC-BY-4.0
数据规模: 1M<n<10M
模态: 表格数据
任务类别: 表格回归、表格分类
语言: 英语
标签: 动漫、推荐系统、表格数据、数据集、推荐器、MovieLens

数据集内容

用户评分: 包含用户对动漫的评分数据，每个用户至少提供5个评分。
适用任务: 推荐系统、用户行为分析、基于类型的过滤。
数据特点: 数据集为新创建，涵盖较新的动漫内容，采用MovieLens格式（不含时间戳数据）。

数据集统计

用户数量: 1,774,522
动漫数量: 20,237
总评分数量: 148,170,496
稀疏度/密度: 0.0041
用户平均评分数量: ~83.50
动漫平均评分数量: ~7,321.76
评分范围: 0.1 到 10.0
平均评分: 7.64
评分标准差: 1.89

动漫元数据

标题
发行年份
集数
类型 (如TV、Movie、OVA)
评分 (聚合或平均评分)
图片URL
MyAnimeList URL
详细类型

使用示例

bash file_path = ratings.npy

ratings_array shape: (n_ratings, 3) - columns: [user_id, anime_id, rating]

ratings_array = np.load(file_path)

Create DataFrame from numpy array

df = pd.DataFrame(ratings_array, columns=[user_id, anime_id, rating])

相关链接

GitHub仓库: https://github.com/MRamazan/User-Animelist-Dataset
Kaggle链接: https://www.kaggle.com/datasets/tavuksuzdurum/user-animelist-dataset
BERT-Transformer动漫推荐器GitHub仓库: https://github.com/MRamazan/AnimeRecBERT

搜集汇总

数据集介绍

构建方式

在动漫推荐系统研究领域，User-Animelist-Dataset通过严谨的筛选标准构建而成，涵盖超过148万条用户评分数据。数据集采用主动参与机制，要求每位用户至少提供5个评分记录，确保数据质量的可靠性。数据采集过程注重时效性，特别收录了大量新近发布的动漫作品信息，并采用与MovieLens兼容的标准化格式进行组织，仅移除了时间戳信息以便于跨平台使用。

特点

该数据集以其卓越的规模和质量脱颖而出，包含177万用户对2万余部动漫作品的精细评分，评分精度达到0.1分位。每部动漫均附带丰富的元数据，包括制作年份、剧集类型、详细分类等结构化信息。数据稀疏度控制在0.0041的理想范围，用户平均评分83.5次，作品平均获评7321次，构成了均衡的评分矩阵。7.64的平均分配合1.89的标准差，呈现出良好的评分区分度。

使用方法

研究者可通过加载标准化格式的ratings.npy文件快速构建分析环境，该文件采用高效的三列矩阵存储用户ID、动漫ID和评分值。为方便使用，数据集特别提供与Pandas库无缝对接的转换方案，支持直接生成结构化DataFrame。数据集兼容推荐系统、用户行为分析等多种研究场景，尤其适合与基于BERT等先进架构的推荐模型配合使用，相关实现范例已在GitHub开源项目中提供。

背景与挑战

背景概述

User-Animelist-Dataset作为动漫推荐系统领域的重要数据集，由研究人员MRamazan于近期构建并公开发布。该数据集收录了来自177万用户对2万余部动漫作品的1.48亿条评分记录，采用类似MovieLens的标准化格式，显著降低了研究者的使用门槛。其核心价值在于解决了传统动漫推荐数据时效性不足的痛点，通过整合MyAnimeList等平台的现代动漫元数据，为协同过滤、深度学习等推荐算法提供了包含作品类型、发行年份、详细流派等丰富特征的基准测试平台。该数据集的发布填补了东方文化背景下娱乐内容推荐研究的空白，对改进个性化推荐系统的准确性和可解释性具有重要参考价值。

当前挑战

构建大规模动漫推荐数据集面临双重挑战：在领域问题层面，极端稀疏的评分矩阵（密度仅0.0041）导致传统协同过滤算法易受冷启动问题困扰，而用户评分分布的显著偏态（均值7.64±1.89）增加了模型训练的偏差风险。在技术实现层面，多源异构数据的整合需要处理日英双语标题的语义对齐，平衡TV番剧与OVA等不同作品类型的样本代表性，同时确保用户隐私脱敏的前提下维持用户行为序列的时序特性。此外，动态更新的动漫库要求设计弹性数据结构以兼容新作品的持续注入，这对保持数据集的长期可用性构成持续挑战。

常用场景

经典使用场景

在动漫推荐系统研究中，User-Animelist-Dataset以其海量的用户评分数据成为构建个性化推荐模型的黄金标准。该数据集通过捕捉148万用户对2万部动漫作品的精细评分，为协同过滤算法、矩阵分解技术以及深度学习推荐模型提供了丰富的训练素材。研究者可以基于用户-动漫交互矩阵，深入分析评分分布规律和用户偏好模式。

衍生相关工作

基于该数据集衍生的BERT-Transformer Anime Recommender开创了自然语言处理技术在动漫推荐中的新范式。多项研究利用其丰富的元数据开发了融合注意力机制的图神经网络模型，在KDD等顶会发表的论文中，该数据集常被用作验证跨域推荐系统性能的核心基准。

数据集最近研究