AniGamePersonaCaps|动漫角色数据集|多模态数据数据集
收藏AniGamePersonaCap 数据集概述
数据集简介
AniGamePersonaCap 是一个多模态数据集,包含了 633,565 个来自 3,860 个 Fandom wiki 站点的动漫、漫画和游戏角色。数据集主要由以下两个模态组成:
-
图像模态
- 角色形象的视觉图像。
-
文本模态
- Fandom Wiki 元数据:从 HTML 内容中提取的角色元信息。
- 描述:
- VLM 生成的描述:由视觉语言模型(如 Qwen-VL-72B-Instruct)生成的角色外貌和性格描述。
- 人工编写的描述(部分):由人类编写的角色外貌和性格描述。
- 匿名化描述(部分):由 GPT-4o-mini 生成的匿名化描述。
数据结构
每个数据样本包含以下字段:
-
元数据:从
<meta>
HTML 标签中提取的信息:title
:角色名称site_name
:Fandom wiki 站点名称url
:角色页面的 URLdescription
:角色的简要描述(可能被截断)image_url
:角色图像的 URL(通常是页面上的第一个图像)
-
描述:从 HTML 解析或由 Qwen-VL 或 GPT-4o-mini 模型生成/改编:
appearance
:human
:人类编写的描述(仅 18% 的样本有非空值)anonymized
:由 GPT-4o-mini 生成的匿名化描述(仅在存在human
描述时非空)Qwen2-VL-7B-Instruct
:由 Qwen2-VL-7B-Instruct 生成的描述Qwen2-VL-72B-Instruct-GPTQ-Int8
:由 Qwen2-VL-72B-Instruct-GPTQ-Int8 生成的描述
personality
:human
:人类编写的描述(仅 19% 的样本有非空值)anonymized
:由 GPT-4o-mini 生成的匿名化描述(仅在存在human
描述时非空)Qwen2-VL-7B-Instruct
:由 Qwen2-VL-7B-Instruct 生成的推理Qwen2-VL-72B-Instruct-GPTQ-Int8
:由 Qwen2-VL-72B-Instruct-GPTQ-Int8 生成的推理
数据收集
数据集从超过 100 万个 Fandom 角色 wiki 页面中收集,这些页面可能与动漫、漫画或游戏相关。收集过程包括:
- 从游戏网站编译游戏实体列表,并使用 DuckDuckGo API 搜索其对应的 Fandom 站点。
- 参考 List of Anime and Manga Wikia 获取动漫和漫画的 Fandom 站点。
- 遍历每个 Fandom 站点的 "Category:Characters" 类别(包括嵌套类别),并检索所有成员页面。
数据处理
数据处理包括以下步骤:
- 去重 wiki 页面 URL 和图像 URL。
- 使用 Qwen2-VL-7B-Instruct 对非动漫/漫画/游戏风格的图像进行分类和过滤。
- 使用 BeautifulSoup 进行 HTML 解析,提取元信息和所需字段。
数据集应用
- 比较 7B 和 72B 模型的性能
- 分析 Qwen VLMs 在 AniGamePersonaCap 上的幻觉问题
- 使用 AniGamePersonaCap 蒸馏 Qwen2-VL-72B-Instruct
- 使用 VLM 描述和角色图像微调文本到图像模型
- 分析视觉线索与性格之间的关系

网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
中国区域教育数据库
该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。
www.moe.gov.cn 收录
China Air Quality Historical Data
该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。
www.cnemc.cn 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录