five

ACCD

收藏
github2023-06-11 更新2024-05-31 收录
下载链接:
https://github.com/artist3yehe/anime-character-chinese-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
以促进中文AI角色创作为目标,本项目持续采集典型二次元动漫角色对话资料ACCD并将其存放在公开仓库中,这些数据可被用于AI角色训练或文学创作学习。

Aiming to facilitate the creation of AI characters in Chinese, this project continuously collects typical dialogue data of anime characters (ACCD) and stores them in a public repository. These data can be utilized for AI character training or literary creation learning.
创建时间:
2023-06-11
原始信息汇总

数据集概述

数据集目的

本项目旨在促进中文AI角色创作,采集并提供典型的二次元动漫角色对话资料(ACCD),用于AI角色训练或文学创作学习。

数据来源与使用限制

  • 数据来源于公开的动漫番剧,仅供AI学习使用,禁止商用。
  • 数据内容不代表项目组思想,项目组不对内容真实性做担保。

数据存储与格式

  • 数据以json文件形式存储,采用instruction、input、output三个键,并扩展MBTI人格参数。
  • 数据分为世界知识、自我认知、对话三类,其中对话部分可根据需要合并使用。

数据应用工具

  • excel2json工具:用于将Excel中的对白转换成项目标准json格式。
搜集汇总
数据集介绍
main_image_url
构建方式
ACCD数据集以促进中文AI角色创作为目标,通过采集公开的二次元动漫角色对话资料构建而成。数据来源于各类动漫番剧,经过筛选和整理后,以json文件形式存储,借鉴了Alpaca finetuning数据的结构,包含instruction、input、output三个键,并扩展了MBTI人格参数,以捕捉角色在不同情境下的多样化话语风格。
特点
ACCD数据集的特点在于其专注于二次元动漫角色的对话数据,涵盖了丰富的角色类型和情境。数据被划分为世界知识、自我认知和对话三类,其中对话部分可根据需求进行灵活组合,适用于特定角色类型的训练。此外,数据集引入了MBTI人格参数,增强了角色对话的多样性和个性化表现,为AI角色训练提供了更为精细的素材。
使用方法
ACCD数据集的使用方法灵活多样,用户可通过提供的excel2json工具将Excel中的对白转换为标准json格式,便于后续处理。数据集适用于AI角色训练和文学创作学习,用户可根据需求选择特定角色的对话数据进行训练,或通过合并多个角色的对话数据来生成更具共性的训练素材。此外,项目组还计划开发accd2finetuning和accd2ptuning工具,以进一步简化数据的使用流程。
背景与挑战
背景概述
随着汉语大模型的快速发展,AI角色个性化成为提升用户体验的关键因素。在这一背景下,ACCD数据集应运而生,旨在促进中文AI角色的创作。该数据集由一群热衷于动漫和AI技术的研究者于近期创建,主要收集了典型二次元动漫角色的对话资料。这些数据以json格式存储,包含instruction、input、output三个键,并扩展了MBTI人格参数,以更好地捕捉角色在不同情境下的语言风格变化。ACCD数据集不仅为AI角色训练提供了丰富的素材,也为文学创作学习开辟了新的途径。
当前挑战
ACCD数据集在构建和应用过程中面临多重挑战。首先,数据采集的合法性和版权问题是一个重要考量,所有数据均来自公开的动漫番剧,需严格遵守版权限制,仅用于AI学习。其次,数据集的构建需要精确捕捉角色在不同情境下的语言风格变化,这对数据的分类和标注提出了较高要求。此外,如何有效利用MBTI人格参数来增强AI角色的个性化表现,也是一个技术上的挑战。最后,数据集的持续更新和维护需要依赖一个开放的动漫数据收集小组,这对项目的长期发展提出了组织和管理上的要求。
常用场景
经典使用场景
在人工智能领域,特别是自然语言处理(NLP)的研究中,ACCD数据集被广泛应用于训练和优化中文AI角色对话系统。通过提供丰富的二次元动漫角色对话资料,该数据集使得研究人员能够深入探索角色个性化和对话生成的技术,从而提升AI在模拟人类对话方面的表现。
衍生相关工作
基于ACCD数据集,研究人员和开发者已经开展了一系列相关研究和工作,包括开发新的对话生成模型、优化现有AI角色的对话策略以及探索角色个性化对用户体验的影响。这些工作不仅丰富了中文NLP的研究内容,也为AI技术的实际应用提供了新的视角和方法。
数据集最近研究
最新研究方向
随着中文大模型的快速发展,ACCD数据集在AI角色个性化训练领域展现出其独特价值。该数据集专注于收集二次元动漫角色的对话资料,通过引入MBTI人格参数,为AI角色训练提供了更为精细化的数据支持。在当前的研究中,ACCD数据集被广泛应用于探索如何通过特定角色对话数据来训练出具有鲜明个性和情感表达能力的AI模型。此外,该数据集的应用还推动了中文自然语言处理技术在动漫和游戏领域的深入应用,特别是在角色对话生成和情感计算方面,为相关领域的研究提供了丰富的数据资源和新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作