NousResearch/CharacterCodex
收藏数据集卡片 for Character Codex
数据集概述
Character Codex 是一个综合性的数据集,包含了来自各种媒体类型和流派的流行角色。每个条目都包括角色的详细信息、媒体来源以及一个独特的角色场景。这个数据集对于合成数据、生成式AI的RAG、作家、游戏开发者以及希望探索和利用丰富角色描述进行各种创意项目的粉丝非常有价值。
数据集结构
数据字段
- media_type: 角色来源的媒体类型(例如,网络漫画、小说、电影、电视节目)。
- genre: 媒体类型的特定流派(例如,奇幻网络漫画、武术小说)。
- character_name: 角色的名字。
- media_source: 角色来源的媒体标题。
- description: 角色的详细描述,包括他们在故事中的角色和重要性。
- scenario: 一个涉及角色的创意场景,可用于互动故事讲述或角色扮演目的。
示例数据
json [ { "media_type": "Webcomics", "genre": "Fantasy Webcomics", "character_name": "Alana", "media_source": "Saga", "description": "Alana 是网络漫画 "Saga" 的主要角色之一。她是一个意志坚强且极度保护自己家庭的母亲,在一个战乱的星系中与家人一起逃亡。故事融合了奇幻和科幻元素,创造了一个丰富而复杂的叙事。", "scenario": "你是星系中的一个旅行者需要帮助,Alana 提供援助并分享她家庭奋斗和胜利的故事。" }, { "media_type": "Novels", "genre": "Martial Arts Fiction", "character_name": "Yilin", "media_source": "The Smiling, Proud Wanderer", "description": "Yilin 是金庸小说 "The Smiling, Proud Wanderer" 中恒山派的年轻尼姑。以她的纯真和善良著称,她与主角令狐冲成为朋友。她的温柔本性经常使她与武术的暴力世界产生冲突。", "scenario": "你是恒山派的同门弟子,在一场特别残酷的冲突后寻求Yilin的安慰和建议。她的温柔举止和富有同情心的话语在一个严酷的世界中提供了慰藉。" } ]
使用案例
- 种子数据: 用于生成合成数据或在生成式AI的互动体验中使用。
- 创意写作: 使用详细的角色描述和场景来激发创意写作项目。
- 教育: 研究各种流派和媒体类型的角色发展和叙事技巧。
数据集创建
数据收集
该数据集中的角色是从各种媒体中精心挑选的,确保了一个丰富多样的集合。描述和场景被精心设计,以提供每个角色的深入和引人入胜的背景。
注释
每个角色条目包括:
- 媒体类型(例如小说、杂志、动漫)、流派(例如动作、历史)以及他们来自的特定媒体来源/标题(例如宝可梦)。
- 突出角色角色、特质和重要性的详细描述。
- 旨在刺激互动和沉浸式体验的场景。
引用
bibtex @dataset{character_codex_2024, title={Character Codex}, author={"Teknium"}, year={2024}, note={https://huggingface.co/datasets/NousResearch/CharacterCodex} }



