Minami-su/character-ai-open2.0

Name: Minami-su/character-ai-open2.0
Creator: Minami-su
Published: 2024-06-04 00:45:56
License: 暂无描述

Hugging Face2024-06-04 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/Minami-su/character-ai-open2.0

下载链接

链接失效反馈

官方服务：

资源简介：

character-ai-open2.0数据集是一个角色扮演对话数据集，由Qwen1.5 32b chat模型生成。数据集包含详细的角色设定和多轮对话，支持中文、英文、德文、法文和日文等多种语言。数据生成框架基于self-instruction，简化了生成流程，并提供了开源代码。数据集包含约2000条和17000条数据，分别存储在两个JSON文件中。每个数据条目包括角色信息和多轮对话。数据集的特点是角色设定详细、角色类型多样、语言和动作描述逼真、支持多语言对话生成，并且提供了一个成本为0的通用本地模型角色扮演数据生成框架。

提供机构：

Minami-su

原始信息汇总

character-ai-open2.0 数据集

数据集概述

数据集名称: character-ai-open2.0
许可协议: Apache 2.0
任务类别: 文本生成
支持语言: 中文、英文、德文、法文、日文
数据集别名: Role-playing Dataset

数据集配置

配置名称: character-ai-open2.0
数据文件: character-ai-open2.0.json

数据集下载

生成模型: Qwen1.5 32b chat
数据内容: 包含角色的设定和对话
下载链接: Huggingface
代码获取: Github

数据生成框架

生成模型: Qwen1.5 32b chat
加速技术: vllm
代码开源: Github
种子特征集和基础设定: 参考evol-character的数据集格式
角色扮演和对话生成: 使用self-instruction框架
简化生成框架: 省去evol和反馈循环部分

数据结构

数据集文件:
- character-ai-open2.0.json (约2000条)
- character-open-v2.0-2.json (约17000条)
数据格式:
- instruction: 描述角色的性格、经历等特征
- output: 包含大于3组以上的对话并拼接在一起

数据集特点

精细化且熟悉的角色设定数据: 从角色身份、语言风格、背景故事等多个维度提供详尽信息
多样的角色: 包含二次元角色、历史名人、小说人物、模型原创角色等
逼真的语言和动作描述: 包含角色间的对话和动作描述，使对话更生动真实
多种语言支持: 支持中日英法德以及code、数学公式等多种语言的多轮对话生成
对话主题和深度: 在多轮对话生成阶段使用深度对话和广度生成对话主题
开源成本为0的通用本地模型角色扮演数据生成框架: 提供通用的开源本地模型角色扮演数据生成框架，代码已公开

数据集示例

示例1

角色信息:
- 角色名称: 索菲亚·贝尔维尤
- 经典台词: Je suis la lumière dans lobscurité, et vous êtes mon désir.
- 身份背景: 来自法国小说《午夜巴黎》的虚构世界
- 性格特征: 独立且自信，对艺术有独到见解
- 语言风格: 法语口音富有韵律，言辞优雅，充满诗意
- 行为特征: 身着设计师定制的华服，总是出现在高端派对和艺术展览中
- 角色经历: 故事围绕艺术追求和个人情感纠葛展开
对话者身份:
- 身份: 让·保罗
- 关系: 索菲亚的情人和艺术上的伙伴
- 描述: 才华横溢的画家，对生活充满热情
对话:
- 索菲亚·贝尔维尤: Je suis toujours fascinée par la manière dont tu capture les émotions dans tes peintures, Jean-Paul.
- 让·保罗: Cest peut-être cela, ma chère.

示例2

角色信息:
- 角色名称: 绫小路清隆
- 经典台词: 人の目を気にすれば、自分の可能性は絶命する。
- 身份背景: 日本轻小说《欢迎来到实力至上主义的教室》中的主人公
- 性格特征: 表面上冷漠寡言，不易被人看透
- 语言风格: 对话简洁、直接，常常一针见血地指出问题的本质
- 行为特征: 身穿标准的高中制服，黑色短发，眼神深邃
- 角色经历: 展现出了与众不同的策略和解决问题的能力
对话者身份:
- 身份: 堀北铃音
- 关系: 清隆的同伴与竞争对手，潜在的恋人
- 描述: D班的班长，以卓越的学识和领导能力著称
对话:
- 绫小路清隆: 今天的测试题似乎比以往都要棘手，你觉得呢，堀北？
- 堀北铃音: 是的，清隆。有些题目似乎超出了课程范围。

搜集汇总

数据集介绍

构建方式

在角色扮演数据集的构建领域，本数据集采纳了自指令生成框架，以本地部署的Qwen1.5 32B Chat模型为核心引擎，并借助vLLM技术实现加速。构建过程始于精心设计的种子特征集，该集合参考了现有数据集的格式，囊括了基础角色特征。模型依据这些种子生成详尽的角色设定，涵盖身份背景、性格特征、语言风格及行为模式等多维度信息。随后，基于这些设定，通过自指令机制自动化生成多轮对话，确保对话内容与角色特征高度契合，同时融入动作描述以增强场景真实感。整个流程摒弃了复杂的进化循环，简化了生成步骤，旨在高效产出大规模、多样化的角色扮演数据。

特点

本数据集在角色扮演领域展现出鲜明的特色。其角色设定极为精细化，不仅覆盖了二次元动漫人物、历史名人、小说角色，还包含了模型原创角色，提供了从经典台词到角色经历的全面描述，确保了角色形象的饱满与一致。对话数据模拟了真实互动，不仅包含语言交流，还嵌入了丰富的动作与环境描写，使得对话场景生动逼真。此外，数据集支持中文、英文、德文、法文、日文等多种语言，并兼容代码与数学公式的呈现，展现了跨语言与跨领域的对话能力。数据结构的组织清晰，每条数据均包含指令与输出部分，便于直接用于模型微调与检索增强生成等任务。

使用方法

在自然语言处理的应用中，本数据集主要服务于文本生成任务，特别是角色扮演对话系统的开发与优化。研究人员与开发者可直接从HuggingFace平台下载数据集文件，其JSON格式便于解析与集成。数据集适用于监督微调，通过指令部分定义角色设定，输出部分提供对话范例，可训练模型学习特定角色的语言风格与行为模式。此外，数据也可用于检索增强生成，作为外部知识库以提升对话的准确性与多样性。使用前需注意，数据由模型生成，未经过严格事实核查，建议结合具体应用场景进行安全性评估与后处理，并遵守相关模型的使用协议与版权规定。

背景与挑战

背景概述

在人工智能对话系统领域，角色扮演数据集对于提升模型在特定人物语境下的交互能力具有关键作用。Minami-su/character-ai-open2.0数据集由开发者Minami-su于近期创建，旨在通过开源框架生成高质量的多语言角色扮演对话数据。该数据集依托本地模型Qwen1.5 32b chat，采用自指令生成技术，构建了涵盖动漫、历史、小说及原创角色的精细化对话样本。其核心研究问题聚焦于如何高效生成具备深度语义和丰富上下文的角色交互内容，以推动开放域对话模型在个性化与情感表达方面的发展，为相关研究提供了可复现的数据基础。

当前挑战

该数据集致力于解决角色扮演对话生成中的领域挑战，即如何确保生成内容在保持角色一致性的同时，实现多轮对话的连贯性与情感真实性。构建过程中面临的主要困难包括：首先，依赖单一本地模型生成数据可能导致多样性受限，且模型固有的偏见可能影响角色设定的客观性；其次，在简化生成框架时，省略进化与反馈循环环节可能削弱数据在复杂情境下的适应能力；此外，多语言支持虽拓展了应用范围，但不同语言间的文化差异与表达习惯增加了数据质量控制的复杂度。

常用场景

经典使用场景

在角色扮演对话生成领域，该数据集凭借其精细化的角色设定与多轮对话结构，为大型语言模型的微调提供了经典范例。数据集通过模拟二次元角色、历史人物及原创虚构形象，构建了包含身份背景、性格特征与语言风格的完整角色档案，进而生成符合角色个性的连贯对话序列。这种结构使得模型能够学习如何在特定角色约束下进行上下文感知的响应生成，从而提升对话系统的角色一致性与沉浸感。

解决学术问题

该数据集有效应对了角色扮演对话系统中角色一致性保持与个性化语言生成的学术挑战。通过提供结构化的角色描述与多轮对话样本，它助力研究者探索如何使语言模型在长对话中维持稳定的角色身份，避免人格漂移现象。同时，数据集支持多语言及跨领域对话生成，为研究文化适应性、领域知识融合及情感表达建模提供了实验基础，推动了对话系统在拟人化与交互深度方面的理论进展。

衍生相关工作

围绕该数据集衍生的经典工作主要包括角色扮演对话模型的微调框架与评估基准的构建。研究者借鉴其数据生成方法，开发了基于自指令学习的角色对话扩展技术，并在此基础上提出了角色一致性度量指标与多轮对话评估体系。同时，该数据集与Evol-Character等项目共同促进了开源角色扮演数据生态的发展，催生了多种专注于二次元文化、历史模拟及多语言交互的细分数据集，丰富了对话生成研究的数据资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集