five

AnimeULike

收藏
github2025-08-23 更新2025-09-22 收录
下载链接:
https://github.com/taivu1998/AnimeULike
下载链接
链接失效反馈
官方服务:
资源简介:
AnimeULike数据集是一个用于动漫推荐的数据集,包含用户评分数据、处理后的偏好矩阵和潜在因子、动漫特定特征(剧情简介、评论、流行度等)以及项目间推荐数据,用于训练基于LLM的动漫推荐系统

The AnimeULike dataset is a specialized dataset for anime recommendation tasks. It includes user rating data, processed preference matrices and latent factors, anime-specific features (such as plot summaries, reviews, popularity metrics, etc.), as well as inter-item recommendation data, and is designed for training LLM-based anime recommendation systems.
创建时间:
2025-08-23
原始信息汇总

AnimeULike 数据集概述

数据集简介

AnimeULike 数据集是一个用于动漫推荐系统的数据集合,包含数据收集、预处理和准备代码,以及训练基于大语言模型(LLM)的推荐系统的相关资源。

数据组成

  • 动漫特征数据:包含动漫特定特征,如剧情简介、评论、流行度等。
  • 偏好数据:包含来自加权矩阵分解(WMF)的已处理偏好矩阵和潜在因子。
  • 评分数据:包含用户提供的评分。
  • 推荐数据:包含编写的项目间推荐。
  • 爬取数据:包含用于首先爬取热门动漫,然后从评论中发现用户的映射和归约管道。
  • 分割数据:包含用于训练、验证和测试分割的脚本。

相关代码

  • 训练代码:包含用于实验的代码。

数据来源

数据通过爬取热门动漫和从评论中发现用户的方式收集。

搜集汇总
数据集介绍
main_image_url
构建方式
在动漫推荐系统研究领域,AnimeULike数据集通过多源数据采集与处理流程构建而成。其核心数据源自用户公开评分记录与番剧特征信息,采用网络爬虫技术从流行作品入手,逐步通过评论数据挖掘用户行为模式。数据预处理环节整合了番剧简介、评论及流行度指标,并利用加权矩阵分解技术生成潜在因子,最终通过科学划分机制形成训练集、验证集与测试集。
特点
该数据集显著特征体现在多模态数据融合与结构化处理。不仅包含用户-项目评分矩阵,还涵盖番剧文本特征(剧情梗概、用户评论)和统计指标(流行度数据),同时提供基于潜在因子模型的交互推荐数据。这种多维度的数据架构为研究协同过滤与内容过滤的混合推荐机制提供了完备基础,特别适用于探索大语言模型在动漫推荐场景的应用潜力。
使用方法
研究者可通过标准化数据加载接口访问预处理后的特征矩阵与评分数据。典型应用流程包括:加载番剧特征数据与用户偏好矩阵,划分训练测试集后输入推荐算法模型;利用提供的潜在因子进行协同过滤实验,或结合文本特征开发混合推荐系统。实验代码库已实现基于大语言模型的推荐器训练框架,支持端到端的模型训练与评估流程。
背景与挑战
背景概述
AnimeULike数据集诞生于现代推荐系统研究对动漫领域个性化服务的需求背景下,由专注于人工智能与推荐算法的研究团队构建。该数据集聚焦于动漫内容推荐这一核心研究问题,通过整合用户评分数据、动漫特征信息及潜在因子模型,为构建高效精准的推荐系统提供数据支撑。其多模态数据结构与大规模用户行为记录,显著推动了动漫推荐领域算法创新与评估标准的发展。
当前挑战
该数据集致力于解决动漫推荐系统中冷启动问题与稀疏评分挑战,需精准捕捉用户偏好与动漫内容的复杂关联。构建过程中面临多源异构数据融合的技术难题,包括非结构化文本(剧情摘要、评论)的特征提取、用户-项目交互矩阵的稀疏性处理,以及跨平台数据采集时的标准化与去噪问题。此外,保持用户隐私合规性与数据时效性亦是重要挑战。
常用场景
经典使用场景
在动漫推荐系统研究中,AnimeULike数据集常被用于训练和评估基于潜在因子模型的协同过滤算法。研究者利用其丰富的用户评分数据与动漫特征信息,构建用户-物品交互矩阵,通过加权矩阵分解技术学习用户和动漫的潜在表示,进而预测用户对未观看动漫的偏好程度。
实际应用
实际应用中,该数据集支撑了动漫流媒体平台的智能推荐模块开发,通过分析用户历史评分与动漫内容特征,为用户精准匹配符合其偏好的作品。部分平台结合其潜在因子生成技术,实现了实时更新推荐列表的功能,显著提升了用户参与度和平台留存率。
衍生相关工作
基于该数据集衍生的经典工作包括结合大型语言模型的深度推荐系统,其利用动漫剧情摘要文本增强表征学习效果。另有研究通过多任务学习框架整合评分预测与评论生成任务,开发出兼具推荐和解释功能的端到端模型,推动了推荐系统与自然语言处理的交叉融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作