Marvel-Wikia-Data
收藏github2020-09-15 更新2024-05-31 收录
下载链接:
https://github.com/taehyungkim1995/Marvel-Character-Dataset-Project
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Marvel漫画中角色的详细信息,如角色身份、善恶倾向、眼睛和头发颜色以及在漫画中的出现次数等,用于通过分类算法预测角色的命运。
This dataset comprises detailed information about characters from Marvel comics, including their identities, moral alignments, eye and hair colors, as well as their frequency of appearances in the comics. It is utilized for predicting the fates of characters through classification algorithms.
创建时间:
2020-08-30
原始信息汇总
数据集概述
数据集来源
- 数据集来自 Kaggle,链接为:https://www.kaggle.com/fivethirtyeight/fivethirtyeight-comic-characters-dataset?select=marvel-wikia-data.csv
数据集内容
- 包含16376行和13列的数据,主要关注以下列:ID, ALIGN, EYE, HAIR, APPEARANCES, ALIVE。
- 经过数据清洗后,数据集缩减至5014行和7列。
数据清洗过程
- 观察并处理了缺失值,超过50%的数据存在缺失。
- 替换缺失的APPEARANCES值为该列的平均值。
- 决定删除其他列中存在缺失值的观测,最终保留了30%的数据。
探索性数据分析发现
- 更多的恶(邪恶)角色(ALIGN)已经死亡,而更多的角色存活。
- 存活角色的总出场次数(176,133次)超过已故角色的总出场次数(33,190次)。
- 恶角色拥有秘密身份的数量多于善角色。
模型构建与评估
- 使用标签编码处理因变量ALIVE,将“存活角色”标记为1,“已故角色”标记为0。
- 采用80%/20%的训练/测试数据分割,应用四种分类器:逻辑回归、线性判别分析(LDA)、K-最近邻(KNN)、随机森林。
- 通过5折交叉验证,KNN(k=64)在训练/测试数据分割中准确率最高,逻辑回归在5折交叉验证中准确率最高。
结论与学习
- 数据集未反映部分角色的最新状态,如Iron Man仍被标记为存活。
- 由于数据缺失,仅使用了30%的数据,解决缺失问题后结果可能会有所不同。
- 标签编码和独热编码在分类问题中非常有效。
使用的资源
- 数据集和代码文件。
- 用于数据处理和分析的Pandas文档。
- 用于可视化的Seaborn和Matplotlib文档。
- 关于分类模型评估和编码方法的资源。
搜集汇总
数据集介绍

构建方式
Marvel-Wikia-Data数据集的构建基于漫威漫画角色的公开数据,原始数据包含16376行和13列,涵盖了角色的身份、阵营、眼睛颜色、头发颜色以及出场次数等特征。在数据清洗过程中,研究者剔除了不相关的列,并对缺失值进行了处理,特别是将出场次数的缺失值替换为列均值。最终,数据集被精简为5014行和7列,保留了用于预测角色生存状态的关键特征。
特点
该数据集的特点在于其专注于漫威漫画角色的生存状态预测,提供了丰富的角色特征信息,如阵营、眼睛颜色、头发颜色和出场次数等。数据集中包含的角色既有正义阵营的,也有邪恶阵营的,且出场次数差异显著。此外,数据集的清洗过程使得其更加适用于分类算法的应用,尽管部分数据因缺失值而被剔除,但剩余数据仍具有较高的代表性。
使用方法
Marvel-Wikia-Data数据集的使用方法主要围绕分类算法的应用展开。研究者首先对目标变量(ALIVE)进行了标签编码,将生存角色标记为1,死亡角色标记为0。随后,数据集被划分为训练集和测试集,分别用于训练和评估四种分类模型:逻辑回归、线性判别分析、K近邻算法和随机森林。通过交叉验证和混淆矩阵的构建,研究者评估了各模型的准确率,并发现K近邻算法在测试集上表现最佳。此外,数据集还可用于探索角色特征与生存状态之间的关系,进一步挖掘漫威角色的命运规律。
背景与挑战
背景概述
Marvel-Wikia-Data数据集由Taehyung Kim创建,旨在通过分类方法预测漫威漫画角色的命运。该数据集基于FiveThirtyEight提供的漫威角色数据,涵盖了16376个角色及其13个特征,包括身份、阵营、眼睛颜色、头发颜色和出现次数等。研究核心问题在于利用这些特征预测角色的生死状态,从而探索角色特征与其命运之间的潜在关联。该数据集不仅为漫威粉丝提供了深入了解角色命运的机会,也为数据科学领域中的分类算法应用提供了新的研究视角。
当前挑战
Marvel-Wikia-Data数据集在构建和应用过程中面临多重挑战。首先,数据缺失问题严重,超过50%的数据存在缺失值,尤其在眼睛颜色和头发颜色等特征上,导致研究者不得不舍弃大量数据,最终仅保留了30%的原始数据。其次,角色特征的多样性和独特性使得数据清洗和特征工程变得复杂,例如,许多角色的视觉特征难以泛化。此外,数据集未能反映最新的漫威宇宙动态,导致部分角色的生死状态与当前剧情不符。这些挑战不仅影响了模型的训练效果,也为未来的数据更新和扩展提出了更高的要求。
常用场景
经典使用场景
Marvel-Wikia-Data数据集在超级英雄研究领域具有广泛的应用,尤其是在分析漫威漫画角色的命运预测方面。通过对角色的身份、阵营、眼睛和头发颜色以及出场次数等特征进行分类分析,研究者能够预测角色的生死状态。这一数据集的使用不仅限于娱乐分析,还为角色命运预测提供了科学依据。
衍生相关工作
基于Marvel-Wikia-Data数据集,许多经典研究工作得以展开。例如,研究者利用该数据集开发了多种分类模型,如逻辑回归、线性判别分析和随机森林等,用于预测角色的生死状态。此外,该数据集还激发了更多关于超级英雄角色特征与命运关联性的研究,推动了机器学习在娱乐分析领域的应用。
数据集最近研究
最新研究方向
近年来,Marvel-Wikia-Data数据集在超级英雄角色命运预测领域引起了广泛关注。研究者们利用该数据集中的角色特征,如阵营、眼睛颜色、头发颜色和漫画出场次数等,通过分类算法预测角色的生存状态。这一研究方向不仅结合了数据科学与流行文化的交叉领域,还为角色命运预测提供了新的视角。尽管数据集存在缺失值问题,研究者们通过数据清洗和特征工程,成功构建了多种分类模型,如逻辑回归、线性判别分析和随机森林等。这些模型在预测角色生存状态方面表现出色,尤其是K近邻算法在特定参数下取得了较高的准确率。未来,随着数据集的进一步完善和算法的优化,这一研究方向有望在超级英雄角色命运预测领域取得更多突破性进展。
以上内容由遇见数据集搜集并总结生成



