five

ACCD|二次元数据集|AI训练数据集

收藏
github2023-06-11 更新2024-05-31 收录
二次元
AI训练
下载链接:
https://github.com/artist3yehe/anime-character-chinese-dataset
下载链接
链接失效反馈
资源简介:
以促进中文AI角色创作为目标,本项目持续采集典型二次元动漫角色对话资料ACCD并将其存放在公开仓库中,这些数据可被用于AI角色训练或文学创作学习。

Aiming to facilitate the creation of AI characters in Chinese, this project continuously collects typical dialogue data of anime characters (ACCD) and stores them in a public repository. These data can be utilized for AI character training or literary creation learning.
创建时间:
2023-06-11
原始信息汇总

数据集概述

数据集目的

本项目旨在促进中文AI角色创作,采集并提供典型的二次元动漫角色对话资料(ACCD),用于AI角色训练或文学创作学习。

数据来源与使用限制

  • 数据来源于公开的动漫番剧,仅供AI学习使用,禁止商用。
  • 数据内容不代表项目组思想,项目组不对内容真实性做担保。

数据存储与格式

  • 数据以json文件形式存储,采用instruction、input、output三个键,并扩展MBTI人格参数。
  • 数据分为世界知识、自我认知、对话三类,其中对话部分可根据需要合并使用。

数据应用工具

  • excel2json工具:用于将Excel中的对白转换成项目标准json格式。
AI搜集汇总
数据集介绍
main_image_url
构建方式
ACCD数据集以促进中文AI角色创作为目标,通过采集公开的二次元动漫角色对话资料构建而成。数据来源于各类动漫番剧,经过筛选和整理后,以json文件形式存储,借鉴了Alpaca finetuning数据的结构,包含instruction、input、output三个键,并扩展了MBTI人格参数,以捕捉角色在不同情境下的多样化话语风格。
特点
ACCD数据集的特点在于其专注于二次元动漫角色的对话数据,涵盖了丰富的角色类型和情境。数据被划分为世界知识、自我认知和对话三类,其中对话部分可根据需求进行灵活组合,适用于特定角色类型的训练。此外,数据集引入了MBTI人格参数,增强了角色对话的多样性和个性化表现,为AI角色训练提供了更为精细的素材。
使用方法
ACCD数据集的使用方法灵活多样,用户可通过提供的excel2json工具将Excel中的对白转换为标准json格式,便于后续处理。数据集适用于AI角色训练和文学创作学习,用户可根据需求选择特定角色的对话数据进行训练,或通过合并多个角色的对话数据来生成更具共性的训练素材。此外,项目组还计划开发accd2finetuning和accd2ptuning工具,以进一步简化数据的使用流程。
背景与挑战
背景概述
随着汉语大模型的快速发展,AI角色个性化成为提升用户体验的关键因素。在这一背景下,ACCD数据集应运而生,旨在促进中文AI角色的创作。该数据集由一群热衷于动漫和AI技术的研究者于近期创建,主要收集了典型二次元动漫角色的对话资料。这些数据以json格式存储,包含instruction、input、output三个键,并扩展了MBTI人格参数,以更好地捕捉角色在不同情境下的语言风格变化。ACCD数据集不仅为AI角色训练提供了丰富的素材,也为文学创作学习开辟了新的途径。
当前挑战
ACCD数据集在构建和应用过程中面临多重挑战。首先,数据采集的合法性和版权问题是一个重要考量,所有数据均来自公开的动漫番剧,需严格遵守版权限制,仅用于AI学习。其次,数据集的构建需要精确捕捉角色在不同情境下的语言风格变化,这对数据的分类和标注提出了较高要求。此外,如何有效利用MBTI人格参数来增强AI角色的个性化表现,也是一个技术上的挑战。最后,数据集的持续更新和维护需要依赖一个开放的动漫数据收集小组,这对项目的长期发展提出了组织和管理上的要求。
常用场景
经典使用场景
在人工智能领域,特别是自然语言处理(NLP)的研究中,ACCD数据集被广泛应用于训练和优化中文AI角色对话系统。通过提供丰富的二次元动漫角色对话资料,该数据集使得研究人员能够深入探索角色个性化和对话生成的技术,从而提升AI在模拟人类对话方面的表现。
衍生相关工作
基于ACCD数据集,研究人员和开发者已经开展了一系列相关研究和工作,包括开发新的对话生成模型、优化现有AI角色的对话策略以及探索角色个性化对用户体验的影响。这些工作不仅丰富了中文NLP的研究内容,也为AI技术的实际应用提供了新的视角和方法。
数据集最近研究
最新研究方向
随着中文大模型的快速发展,ACCD数据集在AI角色个性化训练领域展现出其独特价值。该数据集专注于收集二次元动漫角色的对话资料,通过引入MBTI人格参数,为AI角色训练提供了更为精细化的数据支持。在当前的研究中,ACCD数据集被广泛应用于探索如何通过特定角色对话数据来训练出具有鲜明个性和情感表达能力的AI模型。此外,该数据集的应用还推动了中文自然语言处理技术在动漫和游戏领域的深入应用,特别是在角色对话生成和情感计算方面,为相关领域的研究提供了丰富的数据资源和新的研究方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录