CharcardCodex
收藏Hugging Face2024-06-20 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Gryphe/CharcardCodex
下载链接
链接失效反馈官方服务:
资源简介:
Character Card Codex是一个用于文本生成任务的数据集,主要包含人工创作的角色扮演卡片,内容远超常规语言模型提供的灵感范围。该数据集通过分析超过5万个角色卡片,过滤并去重后,添加了更多度量标准和故事创作提示。数据集包含多个字段,如角色或团体的标识、名称、物种、性别、年龄、外观、性格、场景设置、情景描述、重要细节、用户目标、用户角色以及NSFW级别等。数据集警告用户其内容可能包含不适宜所有观众的高级别NSFW内容,并可能描述令人不安的场景。
创建时间:
2024-06-19
原始信息汇总
Character Card Codex 数据集概述
基本信息
- 许可证: 未知
- 任务类别: 文本生成
- 语言: 英语
- 标签: 合成, 不适合所有观众
- 数据集大小: 10K<n<100K
- 数据集名称: Character Card Codex
数据集描述
该数据集的主要目的是作为原始人类创造性想法的来源,这些想法远远超出了语言模型在常规舒适区提供的灵感。通过引入额外的指标(如下所述),可以过滤可能的情况,然后用于自己的数据集创建管道。
该集合是通过让不受限制的 Opus 分析来自各种来源的超过 50,000 个角色扮演角色卡片创建的,过滤掉更极端的情况并进行大量去重,最后用更多指标和故事创建提示丰富它们。
字段描述
- id: 内部标识符
- type: 类型,可以是 CHARACTER(单个角色)或 GROUP(多个角色)
- name: 角色名称
- species: 角色物种
- gender: 角色性别
- age: 角色年龄
- appearance: 角色的详细外观
- personality: 角色的性格描述
- setting: 场景发生的设定描述
- scenario: 场景描述,从卡片中提取或根据可用信息推断
- notes: 不适应其他字段的重要细节
- objective: 用户与场景互动的最可能目标
- user_role: 用户在场景中扮演的角色
- nsfw_level: 不适宜内容级别,可以是 NONE/LOW/MEDIUM/HIGH
- NONE: 该场景不关注性或积极避免性
- LOW: 如果用户努力,该场景可能会变得性相关
- MEDIUM: 角色对性行为持开放态度,不需要太多说服
- HIGH: 角色和用户已经涉及性行为,即将发生或刚刚发生
- fetishes: 该条目中出现的最突出的三个恋物癖列表(可选)
- story_prompt: 非常详细的指导性提示,告诉语言模型围绕这个主题写一个故事。模糊的用户角色条目被替换为虚构身份。Opus 对每个故事的明确程度有很高的变化,我故意保留了这一点,以促进多样化的数据集。
搜集汇总
数据集介绍

构建方式
CharcardCodex数据集的构建过程体现了对角色扮演卡片的深度分析与筛选。该数据集通过对超过50,000张来自不同来源的角色扮演卡片进行无约束的Opus分析,剔除了极端案例并进行了去重处理。随后,数据集进一步丰富了每个条目的元数据,并附加了故事生成提示。尽管数据集经过严格审查,但仍可能存在重复角色或错误条目,反映了其复杂的构建背景。
特点
CharcardCodex数据集以其独特的内容和丰富的元数据著称。数据集包含角色或群体的详细信息,如名称、物种、性别、年龄等,并提供了外观、性格、场景描述等深度内容。特别值得注意的是,数据集引入了NSFW级别和恋物癖标签,以帮助用户筛选适合的内容。此外,每个条目还附带了详细的故事生成提示,为语言模型提供了多样化的创作灵感。
使用方法
CharcardCodex数据集的主要用途是为语言模型提供创意灵感,尤其适用于生成超出常规舒适区的故事内容。用户可通过NSFW级别和恋物癖标签对条目进行筛选,以构建符合特定需求的数据集。此外,数据集中的故事生成提示可直接用于训练或测试语言模型,帮助生成多样化的叙事内容。使用该数据集时,用户需注意其可能包含的敏感内容,并根据实际需求进行过滤和调整。
背景与挑战
背景概述
CharcardCodex数据集是一个专注于角色扮演卡片文本生成的数据集,旨在为语言模型提供超出常规舒适区的创意灵感。该数据集由一位匿名研究人员通过分析超过50,000张来自不同来源的角色扮演卡片构建而成,经过筛选、去重和丰富化处理后,形成了包含多种场景和角色的集合。数据集的核心研究问题在于如何通过多样化的角色和情境描述,推动语言模型在生成文本时表现出更高的创造力和多样性。尽管数据集主要面向英语用户,但其独特的构建方式和内容使其在角色扮演和文本生成领域具有重要的参考价值。
当前挑战
CharcardCodex数据集在构建和应用过程中面临多重挑战。首先,数据集的内容涉及大量NSFW(不适合所有受众)场景,如何在确保数据多样性的同时避免过度暴露或不当内容,是一个重要的技术难题。其次,尽管数据集经过去重处理,但由于角色可能出现在不同场景中,重复问题仍然存在,这对数据集的纯净性和实用性提出了挑战。此外,数据集中的故事生成提示存在高度变异性,如何平衡提示的明确性与多样性,以确保生成文本的质量和一致性,也是需要解决的关键问题。最后,数据集的构建依赖于人工筛选和标注,如何提高标注的准确性和效率,是未来改进的重要方向。
常用场景
经典使用场景
CharcardCodex数据集主要用于文本生成领域,特别是在角色扮演游戏(RPG)和创意写作中。该数据集通过提供丰富的角色卡片信息,帮助研究人员和开发者生成多样化的故事情节和角色互动。这些角色卡片包含了详细的角色外貌、性格、背景设定等信息,能够为语言模型提供超出常规的创意灵感,从而生成更具深度和多样性的文本内容。
实际应用
在实际应用中,CharcardCodex数据集被广泛用于角色扮演游戏、互动小说和创意写作工具的开发。游戏开发者可以利用该数据集生成丰富的角色背景和故事情节,提升玩家的沉浸感。此外,该数据集还可用于训练聊天机器人,使其能够更好地模拟复杂的人际互动和情感表达,从而在虚拟助手、教育工具等领域发挥重要作用。
衍生相关工作
CharcardCodex数据集衍生了许多相关的研究和应用。例如,基于该数据集的研究工作探索了如何在文本生成中平衡创意与内容安全性,提出了新的过滤和评估机制。此外,该数据集还启发了多个开源项目,如角色扮演游戏生成器和互动小说创作工具,这些工具利用数据集中的丰富信息,帮助用户快速生成复杂的故事情节和角色设定。
以上内容由遇见数据集搜集并总结生成



