five

Anime-Recommendation-System|动漫推荐数据集|用户评价数据集

收藏
github2022-09-19 更新2024-05-31 收录
动漫推荐
用户评价
下载链接:
https://github.com/rai-shivangi/Anime_-recommendation_-system
下载链接
链接失效反馈
资源简介:
该数据集包含73,516名用户对12,294个动漫的评价数据。用户可以将其观看过的动漫添加到完成列表中并给出评分,数据集是这些评分的汇总。

This dataset comprises evaluation data from 73,516 users on 12,294 anime titles. Users can add anime they have watched to their completed list and provide ratings, and this dataset aggregates these ratings.
创建时间:
2022-09-19
原始信息汇总

数据集概述

数据集名称

Anime-Recommendation-System

数据集描述

本数据集包含73,516名用户对12,294部动漫的偏好数据。用户可以将其完成的动漫添加到列表中并给出评分,本数据集即为这些评分的汇总。

数据集内容

Anime.csv

  • anime_id: myanimelist.net的唯一动漫标识。
  • name: 动漫的全名。
  • genre: 动漫的类型,以逗号分隔。
  • type: 动漫类型,如电影、TV、OVA等。
  • episodes: 动漫的集数(如果是电影则为1)。
  • rating: 动漫的平均评分,满分为10分。
  • members: 参与该动漫社区的成员数。

Rating.csv

  • user_id: 随机生成的非识别性用户ID。
  • anime_id: 用户评分的动漫ID。
  • rating: 用户给出的评分,满分为10分(如果用户观看但未评分,则为-1)。

推荐系统类型

本数据集用于内容基于过滤的推荐系统。该系统通过比较物品内容与用户配置文件来推荐物品。每个物品的内容被表示为一组描述符或术语,通常是文档中出现的单词。推荐系统根据用户提供的数据(明确或隐含)生成用户配置文件,并据此为用户提供建议。随着用户提供更多输入或对推荐采取行动,推荐引擎的准确性将不断提高。

数据集来源

数据集取自myanimelist.net API。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合myanimelist.net平台上的用户偏好数据构建而成,涵盖了73,516名用户对12,294部动漫的评分。每个用户能够将其观看过的动漫添加到已完成列表中,并给予评分,这些评分数据被系统性地收集和编译,形成了这一数据集。数据集包括两个主要文件:Anime.csv和Rating.csv,分别记录了动漫的基本信息和用户的评分信息。
特点
该数据集的显著特点在于其丰富的用户行为数据和详细的动漫属性信息。Anime.csv文件中包含了动漫的唯一标识符、名称、类型、集数、平均评分以及社区成员数量等详细信息。Rating.csv文件则记录了用户的匿名ID、所评分的动漫ID以及用户给出的评分,评分范围为0到10,若用户未给出评分则标记为-1。这些数据为基于内容的推荐系统提供了坚实的基础。
使用方法
该数据集适用于构建基于内容的推荐系统,通过分析用户对动漫的评分和偏好,生成个性化的推荐列表。具体方法包括使用TF-IDF(词频-逆文档频率)技术对动漫的类型进行加权,以识别用户可能感兴趣的动漫类型。此外,可以利用scikit-learn库中的成对度量方法,结合sigmoid核函数,对动漫进行推荐与否的二元分类。通过这些技术,系统能够根据用户的历史行为和偏好,提供精准的动漫推荐。
背景与挑战
背景概述
动漫推荐系统数据集(Anime-Recommendation-System)是由myanimelist.net平台提供的用户偏好数据集,涵盖了73,516名用户对12,294部动漫的评分信息。该数据集的核心研究问题在于如何基于用户的历史评分和动漫的属性特征,构建高效的推荐算法,以提升用户体验和个性化推荐效果。通过收集用户对动漫的评分和观看记录,研究人员能够分析用户偏好,进而开发基于内容的推荐系统。该数据集的创建不仅为推荐系统领域的研究提供了丰富的数据资源,还为动漫产业的用户行为分析和市场策略制定提供了重要参考。
当前挑战
动漫推荐系统数据集在构建和应用过程中面临多项挑战。首先,数据集的规模较大,涉及数十万用户和上万部动漫,如何在海量数据中高效提取用户偏好信息是一个技术难题。其次,用户评分数据存在稀疏性问题,部分用户可能仅对少数动漫进行评分,导致推荐算法的准确性受到影响。此外,动漫的多样性和复杂性,尤其是多重标签的分类问题,增加了基于内容推荐算法的复杂度。最后,如何在推荐系统中平衡用户个性化需求与整体社区偏好,确保推荐的多样性和准确性,也是该数据集面临的重要挑战。
常用场景
经典使用场景
在动漫推荐系统领域,Anime-Recommendation-System数据集的经典使用场景主要体现在基于内容的推荐算法中。该数据集通过分析用户对动漫的评分和偏好,构建用户画像,进而推荐与其兴趣相符的动漫作品。具体而言,系统利用动漫的类型、评分和社区成员数量等特征,结合TF-IDF算法,计算出每部动漫的特征权重,从而为用户提供个性化的动漫推荐。
衍生相关工作
基于Anime-Recommendation-System数据集,研究者们开发了多种推荐算法和模型,推动了推荐系统领域的进一步发展。例如,有研究者利用该数据集进行协同过滤算法的优化,通过分析用户间的相似性,提升推荐的准确性。此外,还有学者结合深度学习技术,构建了更为复杂的神经网络模型,以捕捉用户偏好的深层特征,从而实现更精准的动漫推荐。这些衍生工作不仅丰富了推荐系统的理论研究,也为实际应用提供了强有力的技术支持。
数据集最近研究
最新研究方向
在动漫推荐系统领域,Anime-Recommendation-System数据集的研究正聚焦于个性化推荐算法的优化与应用。基于内容的推荐系统通过分析动漫的类型、评分和用户行为,利用TF-IDF和Sigmoid核函数等技术,精准捕捉用户的偏好,从而提升推荐效果。这一研究方向不仅推动了动漫产业的个性化服务发展,也为其他领域的推荐系统提供了宝贵的实践经验。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录